使用pandas将xlsx文件中的特定行添加到列表中
问题描述:
我想将xlsx文件的某些行添加到打开的列表中,但无法弄清楚如何执行此操作。 我有这样的数据几个XLSX文件:使用pandas将xlsx文件中的特定行添加到列表中
A B C D E F G H
1 A10 2 A10 2 AB
2 A105 1 A105 2 AB
....
10 A250 4 A250 4 AB
我想要的行,其中列E减B列的单元格值的单元格值的总和不等于零添加到列表中。所以在上面的例子中,我只希望将第二行添加到列表中,因为2 - 1是1而不是0。因此清单应当事后包含此:
我不知道如何做到这一点,并尝试了几件事情,都与熊猫与openpyxl,但我还没有得到它的权利呢。任何人都可以帮助我一路?
这里是代码的开始:
import pandas as pd
import glob
numbers = []
rapp = r"C:\Myfolder
files = glob.glob(rapp)
for file in files:
df = pd.read_excel(excelfile)
if df.iloc[:,4] - df.iloc[:,1] != 0: #I get an errormessage on this, and do not know how to express this properly.
numbers = #I do not know what to write here either, as I somehow need it to be row.tolist()
Traceback:
if df.iloc[:,4] - df.iloc[:,1] != 0:
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
谢谢您的帮助!
答
熊猫在使用数组时有问题,而不是标量。
比较的输出是:
print ((df.iloc[:, 4] - df.iloc[:, 1]) != 0)
0 False
1 True
2 False
dtype: bool
有2个False
S和一个True
。
不能使用if
,因为python是confused
- 有True
和False
s - 输出是什么?
你可以先通过boolean indexing
与loc
比较柱E
和B
,过滤器选择列和输出到列表:
m = df['E'].ne(df['B'])
print (m)
0 False
1 True
2 False
dtype: bool
解决方案与iloc
:
m = df.iloc[:, 4].ne(df.iloc[:, 1])
pos = [0,1,3,7]
print (df.loc[m, df.columns[pos]].values.tolist())
[['A105', 1, 'A105', 'AB']]
编辑了自己的解决方案:
m = (df.iloc[:, 4] - df.iloc[:, 1]) != 0
pos = [0,1,3,7]
print (df.loc[m, df.columns[pos]].values.tolist())
[['A105', 1, 'A105', 'AB']]
用于多列的解决方案:
print (df)
A B C D E F G H
0 A10 2 NaN A10 2 NaN NaN AB
1 A10 3 NaN A10 2 NaN NaN AB
2 A105 1 NaN A105 2 NaN NaN AB
3 A250 4 NaN A250 4 NaN NaN AB
m = (df.iloc[:, 4] - df.iloc[:, 1]) != 0
print (m)
0 False
1 True
2 True
3 False
dtype: bool
pos = [0,1,3,7]
print (df.loc[m, df.columns[pos]].values.tolist())
[['A10', 3, 'A10', 'AB'], ['A105', 1, 'A105', 'AB']]
现在我对布尔索引有了更多的了解,非常感谢!但是这并没有给我列表的整个行,只有列4 - 列1的总和。 – Pexe
我添加了多个不等于值的解决方案 - 所以输出是嵌套列表。可以吗? – jezrael
完美,谢谢! – Pexe