为什么我在切片数据框中看到所有原始索引元素？

问题描述：

import pandas as pd 
import numpy as np 


df = pd.DataFrame({'ind1': list('aaaaaaaaabbbbbbbbb'), 
        'ind2': list('cccdddeeecccdddeee'), 
        'ind3': list(range(3))*6, 
        'val1': list(range(100, 118)), 
        'val2': list(range(70, 88))}) 

df_mult = df.set_index(['ind1', 'ind2', 'ind3']) 

       val1 val2 
ind1 ind2 ind3    
a c 0  100 70 
      1  101 71 
      2  102 72 
    d 0  103 73 
      1  104 74 
      2  105 75 
    e 0  106 76 
      1  107 77 
      2  108 78 
b c 0  109 79 
      1  110 80 
      2  111 81 
    d 0  112 82 
      1  113 83 
      2  114 84 
    e 0  115 85 
      1  116 86 
      2  117 87

我现在可以使用.loc这样

df_subs = df_mult.loc[pd.IndexSlice['a', ['c', 'd'], :], :]

这给选择它的一个子集的预期

   val1 val2 
ind1 ind2 ind3    
a c 0  100 70 
      1  101 71 
      2  102 72 
    d 0  103 73 
      1  104 74 
      2  105 75

当我打印

df_subs.index

我得到

MultiIndex(levels=[[u'a', u'b'], [u'c', u'd', u'e'], [0, 1, 2]], 
      labels=[[0, 0, 0, 0, 0, 0], [0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]], 
      names=[u'ind1', u'ind2', u'ind3'])

为什么仍级别0 b并不仅仅是a？

这可能会成为一个问题，如果我想使用其他的索引的元素。然后

df_subs.index.levels[0]

给我

Index([u'a', u'b'], dtype='object', name=u'ind1')

然而，

df_subs.index.get_level_values('ind1').unique()

给我

Index([u'a'], dtype='object', name=u'ind1')

看起来不一致给我。

这是错误还是预期行为？

我想知道为什么也:) – Wen

答

有关GitHub围绕此行为的讨论here。

简而言之，您看到的级别不是从您实际观察的MultiIndex中的值计算的 - 在您首次设置MultiIndex后，未观察的级别将通过索引持续存在。这允许在所有视图和一些MultiIndex的副本之间共享级索引，这是很好的记忆方式 - 即df_mult和df_subs在内存*享相同的底层索引。

如果您有一个需要重新计算级别的例子来摆脱未使用的级别并创建一个新的MultiIndex，则可以使用MultiIndex.remove_unused_levels()。

在你的情况

>>> df_subs.index.remove_unused_levels().levels[0] 
Index(['a'], dtype='object', name='ind1')

待办事项读者：'MultiIndex.remove_unused_levels（）'是*新*法大熊猫版本20起。 – Parfait

为什么我在切片数据框中看到所有原始索引元素？

相关推荐