Python pandas groupby pandas.hashtable.PyObjectHashTable.get_item中的关键错误
问题描述:
我在Pandas中做了一个看起来很简单的小组。该列是一个没有NaN或奇怪字符串的字符串列。但是,我不断收到下面的错误。有谁知道为什么这些战斗发生?我觉得喜欢它可能有一些与我的数据,但是这一切似乎是确定...Python pandas groupby pandas.hashtable.PyObjectHashTable.get_item中的关键错误
我正在by_user = df.groupby('User')
和堆栈跟踪:
by_user = df.groupby('User')
File "c:\Anaconda\lib\site-packages\pandas\core\generic.py", line 2773, in groupby
sort=sort, group_keys=group_keys, squeeze=squeeze)
File "c:\Anaconda\lib\site-packages\pandas\core\groupby.py", line 1142, in groupby
return klass(obj, by, **kwds)
File "c:\Anaconda\lib\site-packages\pandas\core\groupby.py", line 388, in __init__ level=level, sort=sort)
File "c:\Anaconda\lib\site-packages\pandas\core\groupby.py", line 2041, in _get_grouper
gpr = obj[gpr]
File "c:\Anaconda\lib\site-packages\pandas\core\frame.py", line 1678, in __getitem__
return self._getitem_column(key)
File "c:\Anaconda\lib\site-packages\pandas\core\frame.py", line 1685, in _get item_column
return self._get_item_cache(key)
File "c:\Anaconda\lib\site-packages\pandas\core\generic.py", line 1052, in _ge
t_item_cache
values = self._data.get(item)
File "c:\Anaconda\lib\site-packages\pandas\core\internals.py", line 2565, in get
loc = self.items.get_loc(item)
File "c:\Anaconda\lib\site-packages\pandas\core\index.py", line 1181, in get_loc
return self._engine.get_loc(_values_from_object(key))
File "index.pyx", line 129, in pandas.index.IndexEngine.get_loc (pandas\index.
c:3656)
File "index.pyx", line 149, in pandas.index.IndexEngine.get_loc (pandas\index.
c:3534)
File "hashtable.pyx", line 696, in pandas.hashtable.PyObjectHashTable.get_item
(pandas\hashtable.c:11911)
File "hashtable.pyx", line 704, in pandas.hashtable.PyObjectHashTable.get_item
(pandas\hashtable.c:11864)
KeyError: 'User'
df.info():
User Code 175167 non-null object
Version 175167 non-null object
Date Accessed 175167 non-null datetime64[ns]
Series 175167 non-null object
Software 175167 non-null object
User 175167 non-null object
答
我[从评论移动] T的容易错过尾随在列名的空白,但你可以手动检查df.columns
:
>>> df = pd.DataFrame({"User": [1,2]})
>>> df2 = pd.DataFrame({"User ": [1,2]})
>>> df
User
0 1
1 2
>>> df2
User
0 1
1 2
>>> df.columns
Index([u'User'], dtype='object')
>>> df2.columns
Index([u'User '], dtype='object')
(要剥开帷幕了一下,我怀疑这样的事情可能因为当我嘲笑了我自己的数据帧进行回事并看着df.info()
,我没有看到你的输出显示的列名和数字之间的空间太多。)
你可以发布'df.info'的输出,也是''User''其中一列? – EdChum 2015-01-09 22:48:24
@EdChum奇怪(?)即使列没有找到,这应该不会引发。 – 2015-01-10 00:00:19
@EdChum我添加了'df.info'。 “用户”在那里,没有空值,它是一个简单的名称集合,而这些名称中没有任何奇怪的字符。这个df是通过'concat'在一堆* .xlsx文件上创建的。 – RedRaven 2015-01-10 05:07:27