学习笔记

一、关于老师分享的《知网》

 《知网》是中国第一个电子知识系统,开发者与设计者为董振东先生。《知网》是以揭示概念所具有的属性之间的关系及概念与概念之间的关系为基本内容的。基于英语和汉语的词语所代表的不同概念,《知网》实现了知识库的构建,并为语言信息处理的多个分析研究应用提供了极为丰富的资源,共有96744 个中文词语9,在词语相似度计算等自然语言处理其他方面得到很多成功的应用。基于《知网》的语义相似度计算方法是通过对两个词语义原集合中最相似元素的寻找来进行匹配,其根据整体的相似度可由部分相似度进行合成的思想,词语的相似度等于各匹配对的加权平均值。尽管较多的参数和加权值的使用使得最终的结果或多或少地带有一些主观因素,且较基于《同义词词林》的语义相似度在准确率方面略有不及,而且人工编制使得其收录的词语数量有限,但基于《知网》的相似度计算方法仍不失为一种可行的语义相似度计算方法。

二、 中文切分词

 FudanNLP中结构化学习的参数估计使用的是PA算法。PA算法采用了最大边际距离的概念,其基本思想是: 为了保证更新后的分类器尽量保留以前的信息,每次总是选取与原有分类器参数向量最接近的新向量; 利用合适的损失函数作为更新后向量在当前样本点上的惩罚,而这个惩罚是每次控制分类器更新程度的重要参数。这样就使得其具有在线训练时间短、方便进行在线学习的优点,代价是它的准确率略低于批量学习算法( 如CRF等)。其工作流程如下图4.2所示。
学习笔记

三、词性标注

 FudanNLP 分词工具使用宾州中文树库标记(Penn Chinesc TreeBank) 进行词性标注,如表4.1所示,这个规范将中文的词性分为11个大类,33 个小类。
学习笔记
四、 关键词提取
 FudanNLP 所使用的关键词提取算法为TextRank 算法“。TextRank 算法,将文本文档中的“词”映射为PaygcRank 算法网络中的网页,将“词”“词”之间的名种对应关系及种种联系映射为网页之间的链接,这就将一个文本义档转化成了个网络。该算法的基本理论是“投票”或“推荐”,当图中的一点P另一点Q之间有连线时,即为点P给点Q 投票,点Q 获得的投票越名,则该点就越重要;更进一步,投票点P的重要性决定了其投票的权威性。因此,点Q 的分数由其获得的投票和给Q 投票的点的分数共同决定“。一般TextRank 模型可以表示为一个带权有向图G=(V,E),由点集合V和边集合E组成,图中从点i到点j 之间边的权重为wj。对于一一个给定的点i,In(i)为指向该点的点集合,Out(i)为i指向的点集合。点i的分数WS(i)计算方法如公式(4.1)。其中,d 为阻尼系数,取值范围为0 到1,代表从图中某一特定点指向其他任意点的概率。
学习笔记
 表4.2 是一一段摘自*关于PagcRank 的介绍。我们先对语句进行中文切分词,而后去除虚词、标点符号、介词等无意义的词。运用TextRank 算法得到的网络图如图4.3,图中边上的数字代表两个词的共同出现次数,,默认值为1。观察现,“网页”和“排名”是网络的中心节点,另外中心节点连交比较紧密的词包括“PageRank",“搜索”,“Google”,“策命”,“超链接”等,这些词也正好符合人们对表4.2 中关键词的预计。
学习笔记
学习笔记