pandas
pandas处理业务
Series 一维
DataFrame 二维
list 副本对象(改变值不会相互影响)
np.array 引用对象 改变值会相互影响
Series 索引和切片 显式索引访问 s.loc[] 统一访问形式
隐式索引访问 s.iloc[]
标签访问为全闭区间
index 优先级比显式索引高,不存在时,NaN替代
Series索引
可以使用中括号取单个索引(此时返回的是元素类型),或者中括号里一个列表取多个索引(此时返回的仍然是一个Series类型)。分为显示索引和隐式索引:
(1) 显式索引:
- 使用index中的元素作为索引值
- 使用.loc[](推荐)
注意,此时是闭区间
(2) 隐式索引:
- 使用整数作为索引值
- 使用.iloc[](推荐)
注意,此时是半开区间
练习
取出 数学 36
取出多个
Series的基本概念
可以把Series看成一个定长的有序字典
可以通过shape,size,index,values等得到series的属性
检验序列中是否有空值,或者是否不为空值
isnull()
notnull()
排序时可选参数 inplace 为True 永久改变对象的数据结构
Series 运算
索引对齐, 与索引的顺序无关,只要名字相同就算对齐
索引如果有缺失,会补全索引,并且以np.nan来填充
Series之间的运算
在运算中自动对齐不同索引的数据
如果索引不对应,则补NaN
注意:要想保留所有的index,则需要使用
add() 加
sub() 减
mul() 乘
div() 除
练习
随机生成两组学生成绩,一组python, 一组java, 学生包括lucy、mery、tom、jack
计算每个学生的平均成绩
找出python未及格的学生姓名
找出java未及格的学生姓名
如果需要给mery的python成绩加10分,如何实现
计算各学科的班级平均成绩