从熊猫数据帧提取信息

问题描述：

我有下面的数据框。我想构建一个规则引擎来提取模式类似于Eg的标记。 “美国”。做这件事的最好方法是什么？这种任务有没有像正则表达式或CGUL？任何建议，将不胜感激。从熊猫数据帧提取信息

WORD_INDEX WORD_TOKEN WORD_POS 
0   TRUMP  PROPN 
1   IS   ADP 
2   THE   ADP 
3   PRESIDENT NOUN 
4   OF   ADP 
5   THE   ADP 
6   UNITED  NOUN 
7   STATES  NOUN

我想从WORD_POS开始，找到WORD_TOKEN。任何想法如何做到这一点？例如，我想查找WORD_POS为NOUN的WORD_TOKEN，然后下一个WORD_POS也是NOUN。

你能将标记分为'UNITED'和'STATES'，然后检查第一个标记，然后检查下面的标记吗？ – titipata

答

您可能想要使用contains字符串方法，该方法默认采用正则表达式参数。例如，

mask = df['WORD_TOKEN'].str.contains('(UNITED|STATES)') 
print(df[mask])

这将匹配任何包含“统一”或“国家”。

我想这样做，我想从WORD_POS开始，找到WORD_TOKEN。任何想法如何做到这一点？例如，我想查找WORD_POS为NOUN的WORD_TOKEN，然后下一个WORD_POS也是NOUN。 –

从熊猫数据帧提取信息

相关推荐