python学习:pandas库之DataFrame官方文档简介
Pandas库是基于Numpy库来创建的,Numpy主要用于矩阵操作,而Pandas主要用于数据处理。
Pandas主要有两种重要的数据结构:Series和DataFrame.
- Series: 类似一个一维数组,一个Series对应DataFrame的一列
- DataFrame:类似一个二维数组,一个DataFrame由几个Series列构成。
在我们学习任何一种开源框架,必须得学会阅读其官方文档:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html
根据官方文档,我们先看其最左边的目录:
我们通过对各子目录的简单介绍,来了解DataFrame如何运用:
英文目录 | 中文目录 | 该目录下常用属性/方法 |
Constructor | 构造方法 | 可以由numpy数组/字典/DataFrame生成 |
Attributes and underlying data |
属性值 | index:数据表的行索引 columns:数据表的列索引 shape:数据表的形状 dtypes:数据表值的数据类型 |
Conversion | 转换 | astype:转换数据类型 |
Indexing, iteration | 索引/迭代 | iloc/loc/iteritems/iterrows/isin |
Binary operator functions | 二元运算符函数 | add/sub/mul/div:加减乘除,元素级计算 dot:点乘 df1.combine_first(df2):用df2的值填充df1的空值 |
Function application, GroupBy & Window |
apply方法/分组/ | apply:在数据表中沿着行/列方向调用某方法 groupby:通过mapping/方法/标签/标签集进行分组,返回一个GroupBy对象。GroupBy对象可进行统计学各值计算或调用其apply/agg方法+D15。 agg/aggregate:聚合函数 |
Computations / Descriptive Stats |
计算/描述性统计 | describe:输出数据表各列统计值-中位值/方差等 /max/mean/var/corr |
Reindexing / Selection/ Label manipulation |
重新索引/选择数据/通过标签操作 | reindex:重命名行/列 rename:可以通过字典的方法重命名行/列 /reset_index/ head:选择前N行数据,默认前5行 tail:选择最后N行数据,默认后5行 drop_duplicates:返回丢弃了重复值的dataframe duplicated:根据是否是重复值返回布尔值Series drop |
Missing data handling | 缺失值处理 | dropna/fillna/replace |
Reshaping/ sorting,/ transposing |
改变数组形状/ 排序/转换 |
sort_values:按表中内容值大小排序, sort_index:按行/列的值大小排序 T:矩阵转置 pivot_table:数据透视表 |
Combining / joining / merging |
合并/连接 | append:在数据表末尾添加行数据 /join/ merge:类似SQL的连接,内连接/外连接 |
Time series-related | 时间序列 | |
Plotting | 绘制图形 | plot:通过kind参数绘制不同图形 |
Serialization / IO / Conversion |
读取操作 | from_csv/to_csv |
Sparse | 稀疏矩阵 | |
数据分箱技术Binning:pandas.cut() 数据分组技术GroupBy:GroupBy.get_group(groupname1)--> 得到其中一组类别的dataframe |