numpy如何使用数组切片索引数组?

问题描述:

也许这已被提出并在别处寻址,但我还没有找到它。 假设我们有一个numpy的数组:numpy如何使用数组切片索引数组?

a = np.arange(100).reshape(10,10) 
b = np.zeros(a.shape) 
start = np.array([1,4,7]) # can be arbitrary but valid values 
end = np.array([3,6,9])  # can be arbitrary but valid values 

startend都具有有效的值,使每个切片也适用于a。 我想在a复制子阵的值对应的点在b

b[:, start:end] = a[:, start:end] #error 

这个语法是不行的,但它等同于:

b[:, start[0]:end[0]] = a[:, start[0]:end[0]] 
b[:, start[1]:end[1]] = a[:, start[1]:end[1]] 
b[:, start[2]:end[2]] = a[:, start[2]:end[2]] 

我不知道是否有一个更好的这样做的方式,而不是一个明确的循环通过startend阵列。

谢谢!

+0

开始和结束对总会有一个常数差(这里是2)吗? – Divakar

+0

不一定,这只是一个例子,但可以假设索引是有效的索引, – galactica

我们可以使用broadcasting创造与两组比较反对startend阵列进行编辑的地方口罩,然后简单地用boolean-indexing分配一个量化的解决方案 -

# Range array for the length of columns 
r = np.arange(b.shape[1]) 

# Broadcasting magic to give us the mask of places 
mask = (start[:,None] <= r) & (end[:,None] >= r) 

# Boolean-index to select and assign 
b[:len(mask)][mask] = a[:len(mask)][mask] 

采样运行 -

In [222]: a = np.arange(50).reshape(5,10) 
    ...: b = np.zeros(a.shape,dtype=int) 
    ...: start = np.array([1,4,7]) 
    ...: end = np.array([5,6,9]) # different from sample for variety 
    ...: 

# Mask of places to be edited 
In [223]: mask = (start[:,None] <= r) & (end[:,None] >= r) 

In [225]: print mask 
[[False True True True True True False False False False] 
[False False False False True True True False False False] 
[False False False False False False False True True True]] 

In [226]: b[:len(mask)][mask] = a[:len(mask)][mask] 

In [227]: a 
Out[227]: 
array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9], 
     [10, 11, 12, 13, 14, 15, 16, 17, 18, 19], 
     [20, 21, 22, 23, 24, 25, 26, 27, 28, 29], 
     [30, 31, 32, 33, 34, 35, 36, 37, 38, 39], 
     [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]]) 

In [228]: b 
Out[228]: 
array([[ 0, 1, 2, 3, 4, 5, 0, 0, 0, 0], 
     [ 0, 0, 0, 0, 14, 15, 16, 0, 0, 0], 
     [ 0, 0, 0, 0, 0, 0, 0, 27, 28, 29], 
     [ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
     [ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]) 
+0

谢谢!这个面具技巧看起来很整洁!但是它是否会导致任何效率问题,即在此示例中复制整个ndarray?在实际场景中,我有一个相当大的ndarray,例如a.shape =(128,32x32x32),这样的值赋值会重复多次,具体取决于每次迭代的不同开始/结束值 – galactica

+0

@galactica我们是哪一个副本指的是?你指的是哪一步? – Divakar

+0

@galactica如果你正在讨论'a [:len(mask)] [mask]'这个副本,那么这个掩码是无法避免的,你不能以矢量化的方式来分割整个东西。所以,如果内存效率是一个问题,我想保持循环,并使用类似:'b [0,start [0]:end [0]] = a [0,start [0]:end [0]]'等等。 – Divakar