揭秘Numpy「高效使用哲学」，数值计算再提速10倍！

读过很多讲解Numpy的教程后，我准备写一个Numpy系列。结合工作项目实践，以Numpy高效使用哲学为主线，重点讲解高频使用函数。

1 Numpy更高效

使用Python的地方，就能看到Numpy，尤其是需要数值计算的地方，Numpy的高性能更是体现的淋漓尽致。

它基于Python，提供远高于Python的高性能向量、矩阵和更高维度的数据结构。之所以性能高是由于它在密集型计算任务中，向量化操作是用C和Fortran代码实现。

2 导入Numpy

只需要一行代码就能导入：

from numpy import *

在numpy包中，描述向量，矩阵和更高维度的数据集使用的术语是array.

3 生成numpy数组

有许多方法能初始化一个新的numpy数组，例如：arange, linspace等，从文件中读入数据，从python的lists等都能生成新的向量和矩阵数组。例：

In [1]: from numpy import *

In [2]: v = array([1,2,3,4])

In [3]: v
Out[3]: array([1, 2, 3, 4])

In [4]: m = array([[1,2],[3,4]])

In [5]: m
Out[5]:
array([[1, 2],
[3, 4]])

v和m的类型都是ndarray，这是numpy中最主要的数据结构之一

In [6]: type(v),type(m)
Out[6]: (numpy.ndarray, numpy.ndarray)

v和m的不同仅仅是它们的形状(shape), 我们能通过ndarray.shape属性发现它们的形状信息，shape属性很有用，尤其在深度学习模型调试中：

In [7]: shape(v),shape(m)
Out[7]: ((4,), (2, 2))

numpy中获取元素个数通过size：

In [8]: size(v),size(m)
Out[8]: (4, 4)

4 为什么要用numpy?

到此，numpy.ndarray看起来非常像Python的list, 那我们为什么不用Python的list计算，干嘛非要创造一个新的数组(array)类型呢？

有多个原因：

Numpy的array是静态类型和同质的，当array被创建时，元素的类型就确定
Numpy的array更节省内存
由于是静态类型，一些数学函数实现起来会更快，例如array间的加减乘除能够用C和Fortran实现

使用ndarray.dtype, 我们能看到一个数组内元素的类型：

In [9]: m.dtype
Out[9]: dtype('int32')

如果我们尝试用str类型赋值给m，会报错：

In [10]: m[0,0]='hello'
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-10-8d5580112ac6> in <module>
----> 1 m[0,0]='hello'

ValueError: invalid literal for int() with base 10: 'hello'

创建数组时，能指定类型，通过为dtype赋值：

In [11]: mc = array([[1,2,],[3,4]],dtype=complex)

In [12]: mc
Out[12]:
array([[1.+0.j, 2.+0.j],
[3.+0.j, 4.+0.j]])

dtype更多取值：int, float, complex, bool, object, 我们还可以显示的定义数据位数的类型，如：int64, int16, float128, complex128

揭秘Numpy「高效使用哲学」，数值计算再提速10倍！

1 Numpy更高效

2 导入Numpy

3 生成numpy数组

4 为什么要用numpy?

相关推荐