我有最初是csv文件的熊猫数组。我想从列中的所有行删除特定的词：文本

问题描述：

这里是熊猫数组：我有最初是csv文件的熊猫数组。我想从列中的所有行删除特定的词：文本

id   text          spam 
4016  Subject: re : vacation vince : i just found ... 0 
4017  Subject: re : receipts from visit jim , than... 0 
4018  Subject: re : enron case study update wow ! a...0 
4019  Subject: re : interest david , please , call... 0 
4020  Subject: news : aurora 5 . 2 update aurora ve...0

我想删除所有列“文”字“主题”行，使其成为：

id   text          spam 
4016  re : vacation vince : i just found ... 0 
4017  re : receipts from visit jim , than... 0 
4018  re : enron case study update wow ! a...0 
4019  re : interest david , please , call... 0 
4020  news : aurora 5 . 2 update aurora ve...0

答

我认为你需要replace - ^手段开始每个字符串和\s+一个或多个空格：

df['text'] = df['text'].replace('^Subject:\s+', '', regex=True) 
print (df) 
    id          text spam 
0 4016 re : vacation vince : i just found ...  0 
1 4017 re : receipts from visit jim , than...  0 
2 4018 re : enron case study update wow ! a...  0 
3 4019 re : interest david , please , call...  0 
4 4020 news : aurora 5 . 2 update aurora ve...  0

但如果需要删除第一9字符包括whitespace S：

df['text'] = df['text'].str[9:]

答

试试这个：

df.text = df.text.apply(lambda row: row[9:])

每一行都将在列改为“文字”，其中第9个字符“主题：”是祛瘀编辑。

我有最初是csv文件的熊猫数组。我想从列中的所有行删除特定的词：文本

相关推荐