cs224w:slide11---PageRank(下)
1、PageRank
PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的,又称网页排名、谷歌左侧排名、PR,是Google公司所使用的对其搜索引擎搜索结果中的网页进行排名的一种算法。
PageRank的结果来源于一种基于图论的数学算法。它将万维网上所有的网页视作节点(node),而将超链接视作边(edge)。
每个节点的权重值表示对应的页面的重要度。
通向该网页的超链接称做“对该网页的投票(a vote of support)”。每个网页的权重值大小被递归地定义,依托于所有链接该页面的页面的权重值。例如,一个被很多页面的链接的页面将会拥有较高的权重值(high PageRank)。
1.1 Node Similarity & Proximity
在介绍PageRank 需要先来提一下 什么叫节点相似。
假设在一个有向图集合中研究两个节点之间的相关性.
上图, 我们可以从感性的认识上判断之间的相似高要比之间的相似度要高。那如何来具体定义相似度呢?
(1)
- common neighbor
- Jaccard
- Adamic-Adar Index
(2)
当然还可以按计算时用到部分点还是全部点来进行分类:
- local:Common Neighbors(CN), Jaccard,Adamic-Adar Index
- Personalized PageRank(PPR), SimRank, Katz