互联网搜索引擎与机器学习[转]

原文链接

互联网搜索引擎与机器学习[转] 

图片链接                              图1. 互联网搜索引擎架构图 

  • 搜索引擎由抓取器、索引器、排序器、用户界面组成

抓取器:从互联网上抓取网页,将垃圾网页过滤;

索引器:分析网页的内容,计算网页的重要度,将网页索引;

用户界面:接受查询语句,分析查询语句的内容;

排序器:从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;

用户界面将排序结果展示给用户,同时收集用户搜索行为数据。

  • 搜索引擎基于大规模分布式计算和统计机器学习。
  • 机器学习在互联网搜索中的应用

排序学习

网页重要度学习

匹配学习

话题模型学习

查询语句转换学习

  • 头部查询与尾部查询

//还需要再深入了解