如何识别文本中的模式并对其进行分类
问题描述:
从存储药品描述的表格中,我需要识别每个条目的产品名称,强度,产品数量和制药公司。目标是获得具有预定义结构的表的副本。如何识别文本中的模式并对其进行分类
当前表:
规范化表:
到目前为止,我读过一点点自然语言处理的,但我想知道的另一种方法;我正在考虑使用正则表达式,但有很多情况。
任何一种洞察力将不胜感激。
从存储药品描述的表格中,我需要识别每个条目的产品名称,强度,产品数量和制药公司。目标是获得具有预定义结构的表的副本。如何识别文本中的模式并对其进行分类
当前表:
规范化表:
到目前为止,我读过一点点自然语言处理的,但我想知道的另一种方法;我正在考虑使用正则表达式,但有很多情况。
任何一种洞察力将不胜感激。
我会使用正则表达式和字符串操作的组合在我的代码来处理这个问题,因为你有很多的案例/方案以供参考。例如,我会使正则表达式失败并提取“干净”组,例如(PharmaceuticalCompanyName),并使用字符串操作将产品名称与力量分开。 –