揭秘Numpy「高效使用哲学」,数值计算再提速10倍!

揭秘Numpy「高效使用哲学」,数值计算再提速10倍!
读过很多讲解Numpy的教程后,我准备写一个Numpy系列。结合工作项目实践,以Numpy高效使用哲学为主线,重点讲解高频使用函数。

1 Numpy更高效

使用Python的地方,就能看到Numpy,尤其是需要数值计算的地方,Numpy的高性能更是体现的淋漓尽致。
它基于Python,提供远高于Python的高性能向量、矩阵和更高维度的数据结构。之所以性能高是由于它在密集型计算任务中,向量化操作是用C和Fortran代码实现。

2 导入Numpy

只需要一行代码就能导入:

from numpy import *
在numpy包中,描述向量,矩阵和更高维度的数据集使用的术语是array.

3 生成numpy数组

有许多方法能初始化一个新的numpy数组,例如:arange, linspace等,从文件中读入数据,从python的lists等都能生成新的向量和矩阵数组。例:

In [1]: from numpy import *

In [2]: v = array([1,2,3,4])

In [3]: v
Out[3]: array([1234])

In [4]: m = array([[1,2],[3,4]])

In [5]: m
Out[5]:
array([[12],
       [34]])
v和m的类型都是ndarray,这是numpy中最主要的数据结构之一

In [6]type(v),type(m)
Out[6]: (numpy.ndarraynumpy.ndarray)
v和m的不同仅仅是它们的形状(shape), 我们能通过ndarray.shape属性发现它们的形状信息,shape属性很有用,尤其在深度学习模型调试中:

In [7]shape(v),shape(m)
Out[7]: ((4,), (2, 2))
numpy中获取元素个数通过size:

In [8]size(v),size(m)
Out[8]: (4, 4)

4 为什么要用numpy?

到此,numpy.ndarray看起来非常像Python的list, 那我们为什么不用Python的list计算,干嘛非要创造一个新的数组(array)类型呢?
有多个原因:
  • Numpy的array是静态类型和同质的,当array被创建时,元素的类型就确定
  • Numpy的array更节省内存
  • 由于是静态类型,一些数学函数实现起来会更快,例如array间的加减乘除能够用C和Fortran实现
使用ndarray.dtype, 我们能看到一个数组内元素的类型:

In [9]: m.dtype
Out[9]: dtype('int32')
如果我们尝试用str类型赋值给m,会报错:

In [10]: m[0,0]='hello'
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-10-8d5580112ac6> in <module>
----> 1 m[0,0]='hello'

ValueError: invalid literal for int() with base 10'hello'
创建数组时,能指定类型,通过为dtype赋值:

In [11]: mc = array([[1,2,],[3,4]],dtype=complex)

In [12]: mc
Out[12]:
array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]]
)
dtype更多取值:int, float, complex, bool, object, 我们还可以显示的定义数据位数的类型,如:int64, int16, float128, complex128