[pandas][学习]基础

pandas 基础学习 dayone check

读取写入

读取的数据格式是DataFrame
pandas.read_csv

pandas.to_csv 中index的用法一般设置为index = false,如果不是false的话,写入的时候会带上df固定的行数。
即:
df.to_csv('data/test-new_table.csv', index = False)

pandas.to_excel
需要安装openpyxl库.

openpyxl是对excel操作库,提供了对于excel的所有操作

DataFram & Series

Series

index data

name:xxxxx, dtypte=xxxxx

DataFrame

index class1 class2
  • 索引对齐特性:
    索引对齐的时 进行对应的操作
    不对齐的位置会出现NaN
  • DateFrame修改
    del以及pop和直接添加都会修改原DateFrame
    drop方法设置inplace=True后会直接在原DataFrame中改动

Series 和 DateFrame都有shape方法
Series固定返回格式为:(X,)
DateFrame固定返回格式为:(X,Y)
Series 可以转为DateFrame
一般将Series.name转为上述表格中的classname

常用方法

  • clip和replace是两类替换函数
    clip是对超过或者低于某些值的数进行截断,不修改原数据

  • replace是对某些值进行替换

  • mad() 绝对中位差

  • 排序

问题

【问题一】

Series和DataFrame有哪些常见属性和方法?

  • Series:
    属性:
    index/shape/size/vlaues/name/dtype
    方法:
    min/max/mean/add/sum/std/var/unique/nunique/mad/pop/apply/map/argmax/argmin/copy/sort_values/sort_index/…
  • DataFrame:
    属性:
    index/columns/shape/size/vlaues…
    方法:
    head/trail/info/drop/dropna/fillna/replace/plt/to_excel/to_csv/merge/join/assign/append/update/melt/groupby/pop/copy/apply/sort_vlaues/sort_index/…

【问题二】

value_counts会统计缺失值吗?
不会的啦
在info中会有

【问题三】

与idxmax和nlargest功能相反的是哪两组函数?
idxmin和nsmallest

【问题四】

在常用函数一节中,由于一些函数的功能比较简单,因此没有列入,现在将它们列在下面,请分别说明它们的用途并尝试使用。
sum/mean/median/mad/min/max/abs/std/var/quantile/cummax/cumsum/cumprod
求和/平均值/中位数/绝对中位差/最小/最大/绝对值/标准差/方差/分位数/以第一个最大的替换后面的元素/累加/连乘/

【问题五】

df.mean(axis=1)是什么意思?它与df.mean()的结果一样吗?第一问提到的函数也有axis参数吗?怎么使用?
axis=1对列做操作
axis=0对行

练习

【练习一】

现有一份关于美剧《权力的游戏》剧本的数据集,请解决以下问题:
(a)在所有的数据中,一共出现了多少人物?
(b)以单元格计数(即简单把一个单元格视作一句),谁说了最多的话?
(c)以单词计数,谁说了最多的单词?
a. [pandas][学习]基础
b. [pandas][学习]基础
c.不太懂

【练习二】

现有一份关于科比的投篮数据集,请解决如下问题:
(a)哪种action_type和combined_shot_type的组合是最多的?
(b)在所有被记录的game_id中,遭遇到最多的opponent是一个支?
a:
zip
排序或者values.count
b:蒙。。。