机器学习(二十三)——Beam Search, NLP机器翻译常用评价度量, 模型驱动 vs 数据驱动

https://antkillerfarm.github.io/

Beam Search

Beam Search(集束搜索)是一种启发式图搜索算法,通常用在图的解空间比较大的情况下,为了减少搜索所占用的空间和时间,在每一步深度扩展的时候,剪掉一些质量比较差的结点,保留下一些质量较高的结点。

这样减少了空间消耗,并提高了时间效率,但缺点就是有可能存在潜在的最佳方案被丢弃,因此Beam Search算法是不完全的,一般用于解空间较大的系统中。

机器学习(二十三)——Beam Search, NLP机器翻译常用评价度量, 模型驱动 vs 数据驱动

上图是一个Beam Search的剪枝示意图。

Beam Search主要用于机器翻译、语音识别等系统。这类系统虽然从理论来说,也就是个多分类系统,然而由于分类数等于词汇数,简单的套用softmax之类的多分类方案,明显是计算量过于巨大了。

PS:中文验证码识别估计也可以采用该技术。

参见:

http://people.csail.mit.edu/srush/optbeam.pdf

Optimal Beam Search for Machine Translation

http://www.cnblogs.com/xxey/p/4277181.html

Beam Search(集束搜索/束搜索)

http://blog.****.net/girlhpp/article/details/19400731

束搜索算法(Andrew Jungwirth 初稿)BEAM Search

NLP机器翻译常用评价度量

机器翻译的评价指标主要有:BLEU、NIST、Rouge、METEOR等。

参考:

http://blog.****.net/joshuaxx316/article/details/58696552

BLEU,ROUGE,METEOR,ROUGE-浅述自然语言处理机器翻译常用评价度量

http://blog.****.net/guolindonggld/article/details/56966200

机器翻译评价指标之BLEU

http://blog.****.net/han_xiaoyang/article/details/10118517

机器翻译评估标准介绍和计算方法

http://blog.****.net/lcj369387335/article/details/69845385

自动文档摘要评价方法—Edmundson和ROUGE

https://mp.weixin.qq.com/s/XiZ6Uc5cHZjczn-qoupQnA

对话系统评价方法综述

模型驱动 vs 数据驱动

最近阅读了这篇文章,深有感慨:

https://mp.weixin.qq.com/s/N7DE0kvf8THhJQwroHj4vA

成不了AI高手?因为你根本不懂数据!听听这位老教授多年心血练就的最实用统计学

注:吴喜之教授是我国著名的统计学家,退休前在中国人民大学统计学院任统计学教授。吴教授上世纪六十年代就读于北京大学数学力学系,八十年代出国深造,在美国北卡罗来纳大学获得统计学博士学位,是改革开放之后第一批留美并获得统计学博士学位的中国学者。多年来吴教授在国内外数十所高校讲授统计学课程,在国内统计学界享有盛誉。其知名的学生有李舰和刘思喆。

李舰,从2003年开始,一直把R当作随身武器奋战在统计学和数据分析的第一线,是Rweibo、Rwordseg、tmcn等高质量R包的作者,在业界积累了大量的经验,目前供职于Mango Solutions(中国),任数据总监。

刘思喆,2012至2016年就职于京东商城,推荐系统平台部高级经理,主要负责和推荐系统离线、在线相关的用户行为、商品特征的建模,以及数据监控平台。因工作业绩,在《京东技术解密》一书中获“数据达人”称号。