从熊猫数据帧提取信息
问题描述:
我有下面的数据框。我想构建一个规则引擎来提取模式类似于Eg的标记。 “美国”。做这件事的最好方法是什么?这种任务有没有像正则表达式或CGUL?任何建议,将不胜感激。从熊猫数据帧提取信息
WORD_INDEX WORD_TOKEN WORD_POS
0 TRUMP PROPN
1 IS ADP
2 THE ADP
3 PRESIDENT NOUN
4 OF ADP
5 THE ADP
6 UNITED NOUN
7 STATES NOUN
我想从WORD_POS开始,找到WORD_TOKEN。任何想法如何做到这一点?例如,我想查找WORD_POS为NOUN的WORD_TOKEN,然后下一个WORD_POS也是NOUN。
答
您可能想要使用contains
字符串方法,该方法默认采用正则表达式参数。例如,
mask = df['WORD_TOKEN'].str.contains('(UNITED|STATES)')
print(df[mask])
这将匹配任何包含“统一”或“国家”。
+0
我想这样做,我想从WORD_POS开始,找到WORD_TOKEN。任何想法如何做到这一点?例如,我想查找WORD_POS为NOUN的WORD_TOKEN,然后下一个WORD_POS也是NOUN。 –
你能将标记分为'UNITED'和'STATES',然后检查第一个标记,然后检查下面的标记吗? – titipata