主动学习方法在临床命名实体识别应用的研究
主动学习实验框架:
1. 初始化模型产生,一般是有两种初始化抽样策略:(a)随机抽样
(b)最长句子抽样。
2. 查询:
未标注句子然后基于查询算法被排序。主要是uncertainty sampling 和diversity based algorithm。
排在前列的句子会被选择用于标注。每次循环的batch size(前多少个句子被选中)被设作8,16,32,64,128.。。。
3. 训练:
基于标注后的句子进行机器学习模型训练
4. 迭代:
步骤2,3被重复直到停止条件被满足。
一。uncertainty-based sampling
主要有六种计算句子不确定性的方法:
(1)least confidence:基于最可能的标注(CRF的后验概率)
(2)margin:基于最可能的两个标注,两个概率差最小就代表最不确定
(3)N-best sequence entropy: CRF预测的概率分布的熵
(4) dynamic N-best sequence entropy:取N个最好的标注,他们的概率和超过0.9
(5)word entropy:取一句句子中全部单个字的熵的总和,这种单字熵的计算基于所有可能标注的分布。
(6)entity entropy:取有首字的期待实体的熵的总和
不确定性抽样高度依赖于模型质量,在实际设定中未必足够高效。
二。diversity-based querying algorithms
差异性为基础的查询算法依靠于信息而不是模型,例如句子间的相似度。
主要有四种计算相似度的方法:
(1)词相似度:词向量受TF/IDF加权处理后被用于代表每句句子。然后两向量之间的余弦相似度被计算作为两句句子的差异度
(2)语义相似度:基于概念相似度,step1:抽离每句句子中的医学概念组成向量,step2:计算新向量的相似度
(3)句法相似度:基于依赖关系在句子和语料中的计数和分布,然后用词向量的方法
(4)混合相似度:结合以上三种方法计算,先基于(1),(3)构建新向量,计算相似度后和(2)所得
取平均数。
相似度为0时,可能是句子太短而不包含任何命名实体,所以可将其移除。
验证结果:
大部分的主动学习研究都是使用学习曲线(画模型的F-measure)来验证方法效率的。
问题:
1. 具体的active learning算法,尤其是uncertainty sampling的六种方法是怎么具体实施的?基于后验概率的熵值又该怎么计算?
2. 和uncertainty sampling相比,diversity sampling是否也能应用于中文医学文本?