主动学习方法在临床命名实体识别应用的研究

主动学习实验框架：

1. 初始化模型产生，一般是有两种初始化抽样策略：（a）随机抽样

（b）最长句子抽样。

2. 查询：

未标注句子然后基于查询算法被排序。主要是uncertainty sampling 和diversity based algorithm。

排在前列的句子会被选择用于标注。每次循环的batch size（前多少个句子被选中）被设作8，16，32，64，128.。。。

3. 训练：

基于标注后的句子进行机器学习模型训练

4. 迭代：

步骤2，3被重复直到停止条件被满足。

一。uncertainty-based sampling

主要有六种计算句子不确定性的方法：

（1）least confidence：基于最可能的标注（CRF的后验概率）

（2）margin：基于最可能的两个标注，两个概率差最小就代表最不确定

（3）N-best sequence entropy： CRF预测的概率分布的熵

(4) dynamic N-best sequence entropy：取N个最好的标注，他们的概率和超过0.9

(5)word entropy：取一句句子中全部单个字的熵的总和，这种单字熵的计算基于所有可能标注的分布。

(6)entity entropy：取有首字的期待实体的熵的总和

不确定性抽样高度依赖于模型质量，在实际设定中未必足够高效。

二。diversity-based querying algorithms

差异性为基础的查询算法依靠于信息而不是模型，例如句子间的相似度。

主要有四种计算相似度的方法：

（1）词相似度：词向量受TF/IDF加权处理后被用于代表每句句子。然后两向量之间的余弦相似度被计算作为两句句子的差异度

（2）语义相似度：基于概念相似度，step1：抽离每句句子中的医学概念组成向量，step2：计算新向量的相似度

（3）句法相似度：基于依赖关系在句子和语料中的计数和分布，然后用词向量的方法

（4）混合相似度：结合以上三种方法计算，先基于（1），（3）构建新向量，计算相似度后和（2）所得

取平均数。

相似度为0时，可能是句子太短而不包含任何命名实体，所以可将其移除。

验证结果：

主动学习方法在临床命名实体识别应用的研究

大部分的主动学习研究都是使用学习曲线（画模型的F-measure）来验证方法效率的。

问题：

1. 具体的active learning算法，尤其是uncertainty sampling的六种方法是怎么具体实施的？基于后验概率的熵值又该怎么计算？

2. 和uncertainty sampling相比，diversity sampling是否也能应用于中文医学文本?