Pandas——索引
主要知识结构框架
相关细节内容请参
https://github.com/datawhalechina/joyful-pandas/blob/master/%E7%AC%AC2%E7%AB%A0%20%E7%B4%A2%E5%BC%95.ipynb
内容可以说是细致入微,以上知识框架是对整体内容做的一个归纳整理,方便快速了解这一部分的知识结构。
以下是在学习过程中自己思考的几个小问题:
1、loc和iloc的区别
pandas以类似字典的方式来获取某一列的值,比如df[‘A’],这会得到df的A列。如果我们对某一行感兴趣呢?这个时候有两种方法,一种是iloc方法,另一种方法是loc方法。loc是指location的意思,iloc中的i是指integer。这两者的区别如下:
loc works on labels in the index.
iloc works on the positions in the index (so it only takes integers).
也就是说loc是根据index来索引,比如下边的df定义了一个index,那么loc就根据这个index来索引对应的行。iloc并不是根据index来索引,而是根据行号来索引,行号从0开始,逐次加1。
或者可以理解为:
iloc主要使用数字来索引数据,不能使用字符型的标签来索引数据。
loc只能使用字符型标签来索引数据,不能使用数字来索引数据。特殊情况:当dataframe的行标签或列标签为数字时,loc就可以来索引。
另外就是,与loc不同,iloc切不包含右端点,相当于右侧非闭。
2.布尔索引的理解
布尔索引顾名思义,就是通过布尔运算符:与、或、非,来进行索引相应符合布尔条件的数据。
个人理解isin方法和字典方法类似,属于逐步锁定符合条件的数据。
3.多层切片
在进行多层切片时需要先做排序,如
df_using_mul.sort_index().loc[(‘C_2’,‘street_6’)????‘C_3’,‘street_4’)]
由元组构成列表,表示选出某几个元素,精确到最内层索引,相当于直接查找同时符合多个条件的元素;
由列表构成元组,选出第一层在‘C_2’和’C_3’中且第二层在’street_4’和’street_7’中的行,相当于一层一层地进行条件筛选,最终找到符合条件的元素。