数据分析(一)

学习python要有面向数组/多维数组的编程思维
numpy好的地方就在于可以进行数组层面的操作,不用循环去处理数组中的每一个元素,这叫做矢量化,以上用的函数基本都要在前面加上np.
ndarray里面是同一种类型的数据
切片的赋值会影响到源数据
数据分析(一)
如果只是复制一份切片,需要用到copy()
数据分析(一)
type(arr)是看arr的整个类型
arr.dtype是看arr中元素的数据类型
数据分析(一)
如何改变数据类型用astype
数据分析(一)
但是是产生一个新的数组,原数组类型不变
将元组列表等序列数组转换为ndarray用asarray
数据分析(一)
但是是创建了一个新的数组,原arr没有变
两种取值方式是等价的
数据分析(一)
以整数数组来取出对应数组
数据分析(一)
若传入多个整数数组,返回的是索引元组,注意是元组
数据分析(一)
本应该是一个3x3的矩阵才对,要想取得矩阵需要这样
数据分析(一)
还可以用np.ix_函数
数据分析(一)
用.T取得数组的转置
数据分析(一)
还可以通过transpose函数来转换轴来实现数组的转置
数据分析(一)
其中参数是变换后轴位置的元组,(1,0)表示,把原来的0轴和1轴对换
swapaxes函数是用来交换轴的,只能传入两个参数,意味着这个函数只能交换两个2轴
数据分析(一)
数据分析(一)
数据分析(一)
数据分析(一)

通用函数(ufunc):快速元素级数组函数
从字面上理解就是进行元素级别的函数,如sqrt、exp、maximum等
数据分析(一)
可以用来划分整数和小数的函数modf,返回的是两个数组
数据分析(一)
《利用python进行数据分析》上有关于ufunc的一元二元的函数表
数据分析(一)
数据分析(一)
数据分析(一)
数据分析(一)
数据分析(一)

函数meshgrid接收两个一维数组,返回二维数组
数据分析(一)
其中np.arange(-5,5,0.01)指的是在[-5,5)之间每0.01为一个间隔创建一个数组
通过条件来创建数组
数据分析(一)
其中zip函数为打包函数,将xarr,cond,yarr相对应的元组
数据分析(一)
上面的方法是比较麻烦的,我们可以用where函数
数据分析(一)
arr中大于0设置为2,否则为-2
数据分析(一)
只处理正数
sum,mean等函数可以有一个轴参数,axis=0表示统计相同列不同行的值,axis=1表示统计相同行不同列的值。
数据分析(一)
看最后的数组元素个数就可知
cumsum表示所有元素累计和
cumprod表示所有元素累计积
数据分析(一)
any(是否存在)、all(是否全部)用来判断bool数组的True情况
数据分析(一)
数据分析(一)

将数组中的元素进行排序用sort函数,参数是轴axis
数据分析(一)
求取数组中的唯一值用unique函数,并且返回一个排序的数组
数据分析(一)
判断一个数组存在的数是否在另一个数组中存在用in1d函数
数据分析(一)
数据分析(一)

四、用于数组的文件输入输出
np.save(‘文件名’,数组)从内存中保存数组到硬盘和np.load(文件名.npy)从硬盘加载数组到内存中
数据分析(一)
np.savez(文件名.npz,数组,数组)可以保存多个数组,加载还是用load,取值时可以用关键字’a’,'b’等
数据分析(一)

存取文本文件:
有np.loadtxt和np.genfromtxt将数据加载到普通的Numpy数组中,loadtxt和genfromtxt差不多,只不过它面向的时结构化数组和丢失数据处理
有np.savetxt将数组以某种分隔符写到文本文件中

五、线性代数
dot可以实现矩阵的点积
数据分析(一)
x.dot(y)和np.dot(x,y)是等价的
矩阵中的求逆运算、矩阵分解都运算在linalg模块中
数据分析(一)

六、随机数生成
数据分析(一)
数据分析(一)
七、pandas数据结构介绍
数据分析(一)

索引index是不可改的
数据分析(一)
数据分析(一)
数据分析(一)
Series重新设置索引用reindex
数据分析(一)
用参数fill_value填充没有赋值的索引
数据分析(一)
重新索引时,可以用method参数来设置填充方法
数据分析(一)
数据分析(一)
可以用ix标签来代替index,可以更加简洁
数据分析(一)
注意,ix标签用的[],不是用()
数据分析(一)
删除指定轴上的项用drop函数
数据分析(一)
删除的时候要设置轴,但是这里默认是0轴,即行,所以不用设置,要删除列的项要将轴设置为1,axis=1
数据分析(一)
索引的切片运算与python不同,是包含末端的
数据分析(一)
DataFrame的选取可以通过切片也可以通过布尔型数组运算
数据分析(一)
数据分析(一)
选取某些具体的行和列共同作用的子集可以用ix标签
数据分析(一)
经常会用到:
数据分析(一)
数据分析(一)
pandas可以对不同索引的对象进行算术运算,并且最终结果是两个对象的索引的并集。
数据分析(一)
DataFrame亦是如此
数据分析(一)
numpy中的ufun也可以用于pandas中
数据分析(一)
可以通过使用apply函数将一个方法运算在单行或者单列的一位数组上
数据分析(一)
对索引进行排序可以使用sort_index(),可设置轴或者升序还是降序,也可以通过某一列排序,添加一个参数by=‘列名’
rank()是 平均排名,rank(method=‘first’)是按第一次出现排名
数据分析(一)
数据分析(一)
索引是可以重复的
数据分析(一)