pandas

pandas处理业务

Series 一维
DataFrame 二维
pandas
list 副本对象(改变值不会相互影响)
np.array 引用对象 改变值会相互影响
Series 索引和切片 显式索引访问 s.loc[] 统一访问形式
隐式索引访问 s.iloc[]
标签访问为全闭区间


pandas
index 优先级比显式索引高,不存在时,NaN替代


Series索引
可以使用中括号取单个索引(此时返回的是元素类型),或者中括号里一个列表取多个索引(此时返回的仍然是一个Series类型)。分为显示索引和隐式索引:

(1) 显式索引:

  • 使用index中的元素作为索引值
  • 使用.loc[](推荐)
    注意,此时是闭区间

(2) 隐式索引:

  • 使用整数作为索引值
  • 使用.iloc[](推荐)
    注意,此时是半开区间

练习
pandas
取出 数学 36
pandas
取出多个
pandas


Series的基本概念
可以把Series看成一个定长的有序字典

可以通过shape,size,index,values等得到series的属性

pandas
pandas
检验序列中是否有空值,或者是否不为空值
isnull()
notnull()
pandas
排序时可选参数 inplace 为True 永久改变对象的数据结构
pandas
pandas


Series 运算

索引对齐, 与索引的顺序无关,只要名字相同就算对齐
索引如果有缺失,会补全索引,并且以np.nan来填充

Series之间的运算

在运算中自动对齐不同索引的数据
如果索引不对应,则补NaN
注意:要想保留所有的index,则需要使用

add() 加
sub() 减
mul() 乘
div() 除
pandas


练习
随机生成两组学生成绩,一组python, 一组java, 学生包括lucy、mery、tom、jack
计算每个学生的平均成绩
找出python未及格的学生姓名
找出java未及格的学生姓名
如果需要给mery的python成绩加10分,如何实现
计算各学科的班级平均成绩