numpy如何使用数组切片索引数组?
也许这已被提出并在别处寻址,但我还没有找到它。 假设我们有一个numpy的数组:numpy如何使用数组切片索引数组?
a = np.arange(100).reshape(10,10)
b = np.zeros(a.shape)
start = np.array([1,4,7]) # can be arbitrary but valid values
end = np.array([3,6,9]) # can be arbitrary but valid values
start
和end
都具有有效的值,使每个切片也适用于a
。 我想在a
复制子阵的值对应的点在b
:
b[:, start:end] = a[:, start:end] #error
这个语法是不行的,但它等同于:
b[:, start[0]:end[0]] = a[:, start[0]:end[0]]
b[:, start[1]:end[1]] = a[:, start[1]:end[1]]
b[:, start[2]:end[2]] = a[:, start[2]:end[2]]
我不知道是否有一个更好的这样做的方式,而不是一个明确的循环通过start
和end
阵列。
谢谢!
我们可以使用broadcasting
创造与两组比较反对start
和end
阵列进行编辑的地方口罩,然后简单地用boolean-indexing
分配一个量化的解决方案 -
# Range array for the length of columns
r = np.arange(b.shape[1])
# Broadcasting magic to give us the mask of places
mask = (start[:,None] <= r) & (end[:,None] >= r)
# Boolean-index to select and assign
b[:len(mask)][mask] = a[:len(mask)][mask]
采样运行 -
In [222]: a = np.arange(50).reshape(5,10)
...: b = np.zeros(a.shape,dtype=int)
...: start = np.array([1,4,7])
...: end = np.array([5,6,9]) # different from sample for variety
...:
# Mask of places to be edited
In [223]: mask = (start[:,None] <= r) & (end[:,None] >= r)
In [225]: print mask
[[False True True True True True False False False False]
[False False False False True True True False False False]
[False False False False False False False True True True]]
In [226]: b[:len(mask)][mask] = a[:len(mask)][mask]
In [227]: a
Out[227]:
array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
[20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
[30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
[40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])
In [228]: b
Out[228]:
array([[ 0, 1, 2, 3, 4, 5, 0, 0, 0, 0],
[ 0, 0, 0, 0, 14, 15, 16, 0, 0, 0],
[ 0, 0, 0, 0, 0, 0, 0, 27, 28, 29],
[ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])
谢谢!这个面具技巧看起来很整洁!但是它是否会导致任何效率问题,即在此示例中复制整个ndarray?在实际场景中,我有一个相当大的ndarray,例如a.shape =(128,32x32x32),这样的值赋值会重复多次,具体取决于每次迭代的不同开始/结束值 – galactica
@galactica我们是哪一个副本指的是?你指的是哪一步? – Divakar
@galactica如果你正在讨论'a [:len(mask)] [mask]'这个副本,那么这个掩码是无法避免的,你不能以矢量化的方式来分割整个东西。所以,如果内存效率是一个问题,我想保持循环,并使用类似:'b [0,start [0]:end [0]] = a [0,start [0]:end [0]]'等等。 – Divakar
开始和结束对总会有一个常数差(这里是2)吗? – Divakar
不一定,这只是一个例子,但可以假设索引是有效的索引, – galactica