spaCy无法正确解析医学文本

问题描述：

最近，我一直在遇到一些问题，同时将一些医学文本分成带有spaCy的句子。也许你可以解释，为什么会出现这些问题？spaCy无法正确解析医学文本

如果单词的长度为1，并且句子以点结束，则句子的结尾将不会被识别。例如：

有在术前或术后血流动力学或肌钙蛋白I. 的释放（NO SPLIT HERE）术前 口服辅酶Q（10）治疗在接受心脏患者未治疗间差异手术增加心肌和心脏线粒体辅酶Q（10）的水平，提高线粒体效率，并增加心肌耐受性体外缺氧 - 复氧应激。

另一个问题是与字符+/-，它被视为句子的结尾。例如，一个完整的句子被分为若干句子象下面这样：

以上全部应该是一个单句！

有时句子在单词和特殊字符（特殊和特殊字符，数字和长度小于3的单词）之间中断。

患者存活率接收左心室辅助设备（N = 68）相对于患者接受最佳医疗管理（N = 61），分别为52％对1年28％，29％和13％在2年SPLITS HERE （P = 0.008，对数秩检验）。

非常感谢！

答

SpaCy的英语模特接受网络数据培训 - 主要是博客文章等。很显然，平均博客文章看起来与您正在撰写的医学文献完全不同，所以spaCy非常混乱。这个问题不是特定于spaCy的，它也会发生在任何设计用于处理“典型”英语的系统上，该系统不包括医学论文并使用统计建模。

由于在其他情况下可以使用NLP技术出现问题，医学文本相当臭名昭着，因此您可能需要寻找专门为此设计的东西。或者，您可以尝试根据您的数据制作一个小型训练集，并制作一个新的spaCy模型。

也就是说，+/-问题确实看起来很奇怪，可能是基于标记化问题或其他问题而非模型问题 - 我建议您提交一个缺陷报告here。