数据科学原理与数据处理pandas
pandas的介绍与安装
一 安装:
在命令行中使用pip install pandas安装
二 核心概念
1、Series:列
2、DataFram:表
2.1 核心概念1 Series(列)
2.1.1 创建Series (pandas.Series([值1,值2,值3])
2.1.1.1 通过Series自带的方法创建Series。
2.1.1.2 通过字典生成Series
可以先创建一个字典,然后将字典导入Series中
注意:字典的key就是索引,value就是值
2.1.1.2 Series对象可以转换成dic和list对象
ser.tolist()转成列表
ser.to_dict()转成字典
ser.to_json()转成json对象
ser.to_frame()
2.1.2 自定义索引
在创建Series时,系统会自动生成索引,如果不满意系统的索引,可以自定义一个,方面以后进行取值和切片操作。
1、先创建一个lis对象
2、将list对象合并到series对象中
注意:索引既可以是数字,也可以是字符串
索引可以在创建Series的时候通过字典创建
2.1.3 通过索引取值和切片
可以通过索引获取到对应的值
2.1.4 通过索引输入一个值区间,可以进行切片操作
2.1.5 通过索引修改值
通过索引取到某个值,然后可以对其重新赋值
注意!重新赋值的操作,会作用到原数据中
2.1.6 查看Series的值和类型
ser.values和type(ser.values)
通过value方法查看对象的值,通过type(对象.values)查看对象的类型
2.1.7 Series对象的运算
直接对Series对象进行数学运算,实质是对对象的值进行运算。
2.2 核心概念DataFrame
2.2.1 创建DataFrame
2.2.1.1 通过矩阵创建DataFrame
2.2.1.2通过字典创建DataFrame
先创建一个字典,再转化为DataFrame
注意:DataFrame也可以转换成dict、list、json等。
也可以在创建DataFrame的时候指定索引和列名
index=
columns=
2.2.1.3 查看列明和修改列明
通过columns方法修改列明
三 Pandas中对数据的选取操作
3.1、取值操作
3.1.1 取一列数据ser[[列名1],[列名2]]
3.1.2 修改值的操作方法一 影响原数据
先取出一列,然后对列进行重新赋值操作。
注意:这样会影响原始数据
3.1.3 修改值的操作方法二 不影响原数据
在取列后,先copy一份,然后再修改值,这样就不会影响到原始数据
3.2 切片操作
通过columns获取列名索引,然后取对应的值
3.3 增加和删除列
3.3.1增加列
直接增加
3.3.2 删除
使用对象.drop([列名1,列名2], axis=n)
注意:axis控制行列的宣传,axis=0表示删除行,=1表示删除列