【python数据分析(一)】Numpy基础及基本应用
一.数据处理的一般流程:
数据收集—》数据预处理—》数据处理—》数据展示
数据收集:网络爬虫,公开数据集,其他途径收集的数据
数据预处理:归一化,二值化,维度变换,去重,无效数据过滤
数据处理:数据排序,数据查找,数据统计分析
展示:列表,图表,动态交互图形
二.numpy的优点
高性能,开源,数组运算,读写迅速
三.numpy的定义
1.NumPy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组对象和用于处理数组的例程集合组成的库。
2.使用NumPy,开发人员可以执行以下操作:
(1)数组的算数和逻辑运算。
(2)傅立叶变换和用于图形操作的例程。
(3)与线性代数有关的操作。 NumPy 拥有线性代数和随机数生成的内置函数。
四.安装
pip install numpy
五.有多快?
六.导入numpy
import numpy as np
七.numpy的基础类型—ndarray
#创建一个ndarray类型的数组
data = np.array([1,2,3,4,5])
np.array()里直接填一个由数字组成的列表
#创建一个二维的ndarray类型的数组
data = np.array([[1,2,3],[4,5,6]])
#判断ndarray的维度
data = np.array([[1,2,3],[4,5,6]])
print data.ndim
#了解ndarray各维度的长度
data = np.array([[1,2,3],[4,5,6]])
print data.shape
#创建一个全是0的数组
data = np.zeros(10)
#创建一个全是1的二维数组
data = np.ones((3,10))
#索引
data = np.arange(10)
print data[5]
# 切片
data = np.arange(10)
print data[3:6]
#变换维度
data = np.arange(10)
print data
print data.reshape(2,5)
#转置
data = np.arange(10)
print data.reshape(2,5).T
#对ndarray数组每个元素求平方根
data = np.arange(10)
print np.sqrt(data)
其他的常用方法:
#相加
data1 = np.array([1,3,5,7,9])
data2 = np.array([2,4,6,8,10])
print data1+data2
print np.add(data1,data2)
#求和
data= np.arange(10)
print data.sum()
#求平均值
data= np.arange(10)
print data.mean()
#求标准差
data= np.arange(10)
print data.std()
#排序
data = np.array([1,9,8,0,3])
data.sort()
#读取txt文件
data = np.genfromtxt(‘data.txt’,delimiter=‘,’)
print data
#数组.astype(要转换的类型)
data = np.genfromtxt(‘data.txt’,delimiter=‘,’)
print data.astype(int)
作业: