科学数据库 pandas核心数据结构


核心数据结构

Series

创建

Series 是一维带标签的数组,数组里可以放任意的数据(整数,浮点数,字符串,python,object)。其基本的创建函数是:
s=pd.Series(data,index=index)
其中index是一个列表,用来作为数据的标签。data可以是不同的数据类型:
python字典
科学数据库 pandas核心数据结构
ndarray对象
科学数据库 pandas核心数据结构
一个标量值,如3
科学数据库 pandas核心数据结构

特性

series对象的性质
类ndarray对象
类dict对象
标签对齐操作
科学数据库 pandas核心数据结构

DataFrame

创建

DataFrame是二维带行标签和列标签的数组。可以吧DataFrame想你成一个Excel表格或一个SQL数据库的表格,还可以想象成是一个Series对象字典。它是Pandas里最常用 的数据结构。
创建DataFrame的基本格式:
df.pd.DataFrame(data,index=index,columns=columns)
其中index,column是行,列标签;data可以是:
由一维 numpy 数组,list,Series 构成的字典
科学数据库 pandas核心数据结构
科学数据库 pandas核心数据结构
科学数据库 pandas核心数据结构
科学数据库 pandas核心数据结构二维 numpy 数组
一个 Series
科学数据库 pandas核心数据结构
另外的 DataFrame 对象

列选择/增加/删除

科学数据库 pandas核心数据结构
科学数据库 pandas核心数据结构
科学数据库 pandas核心数据结构
使用 assign() 方法来插入新列(相当于copy)
更方便地使用 methd chains 的方法来实现
科学数据库 pandas核心数据结构
科学数据库 pandas核心数据结构

索引和选择

对应的操作,语法和返回结果
选择一列 -> df[col] -> Series
根据行标签选择一行 -> df.loc[label] -> Series
根据行位置选择一行 -> df.iloc[label] -> Series
选择多行 -> df[5:10] -> DataFrame
根据布尔向量选择多行 -> df[bool_vector] -> DataFrame

Panel

Panel 是三维带标签的数组。实际上,Pandas 的名称由来就是由 Panel 演进的,即 pan(el)-da(ta)-s。Panel 比较少用,但依然是最重要的基础数据结构之一。

items: 坐标轴 0,索引对应的元素是一个 DataFrame
major_axis: 坐标轴 1, DataFrame 里的行标签
minor_axis: 坐标轴 2, DataFrame 里的列标签
科学数据库 pandas核心数据结构
科学数据库 pandas核心数据结构
科学数据库 pandas核心数据结构