如何识别文本中的模式并对其进行分类

问题描述:

从存储药品描述的表格中,我需要识别每个条目的产品名称,强度,产品数量和制药公司。目标是获得具有预定义结构的表的副本。如何识别文本中的模式并对其进行分类

当前表: current table

规范化表: normalized table

到目前为止,我读过一点点自然语言处理的,但我想知道的另一种方法;我正在考虑使用正则表达式,但有很多情况。

任何一种洞察力将不胜感激。

+0

我会使用正则表达式和字符串操作的组合在我的代码来处理这个问题,因为你有很多的案例/方案以供参考。例如,我会使正则表达式失败并提取“干净”组,例如(PharmaceuticalCompanyName),并使用字符串操作将产品名称与力量分开。 –

根据你的例子,你的数据是足够正规的正则表达式可能是一个好方法。您可以尝试更复杂的方法是命名实体识别(NER)。 “纽约时报”使用CRF++从配方中提取成分信息并撰写有关信息here

NER Example