spaCy无法正确解析医学文本

问题描述:

最近,我一直在遇到一些问题,同时将一些医学文本分成带有spaCy的句子。也许你可以解释,为什么会出现这些问题?spaCy无法正确解析医学文本

如果单词的长度为1,并且句子以点结束,则句子的结尾将不会被识别。 例如:

有在术前或术后 血流动力学或肌钙蛋白I. 的释放(NO SPLIT HERE)术前 口服辅酶Q(10)治疗在接受心脏患者未治疗间差异手术 增加心肌和心脏线粒体辅酶Q(10)的水平, 提高线粒体效率,并增加心肌耐受性 体外缺氧 - 复氧应激。

另一个问题是与字符+/-,它被视为句子的结尾。例如,一个完整的句子被分为若干句子象下面这样:

  • VO(2MAX)3.6 +/-
  • 2.1显著下降,14 +/-
  • 2.5,和27.4 +/-
  • 在TW
  • 3.6%,并且通过5 +/-
  • 4,9.4 +/-
  • 分别为6.4,并在1000,2500在SW 18.7 +/-
  • 7%,和4500微米。

以上全部应该是一个单句!

有时句子在单词和特殊字符(特殊和特殊字符,数字和长度小于3的单词)之间中断。

患者存活率接收左心室辅助 设备(N = 68)相对于患者接受最佳医疗管理 (N = 61),分别为52%对1年28%,29%和13%在2年SPLITS HERE (P = 0.008,对数秩检验)。

非常感谢!

SpaCy的英语模特接受网络数据培训 - 主要是博客文章等。很显然,平均博客文章看起来与您正在撰写的医学文献完全不同,所以spaCy非常混乱。这个问题不是特定于spaCy的,它也会发生在任何设计用于处理“典型”英语的系统上,该系统不包括医学论文并使用统计建模。

由于在其他情况下可以使用NLP技术出现问题,医学文本相当臭名昭着,因此您可能需要寻找专门为此设计的东西。或者,您可以尝试根据您的数据制作一个小型训练集,并制作一个新的spaCy模型。

也就是说,+/-问题确实看起来很奇怪,可能是基于标记化问题或其他问题而非模型问题 - 我建议您提交一个缺陷报告here