cs224w:slide11---PageRank(下)

1、PageRank

PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的,又称网页排名、谷歌左侧排名、PR,是Google公司所使用的对其搜索引擎搜索结果中的网页进行排名的一种算法。

PageRank的结果来源于一种基于图论的数学算法。它将万维网上所有的网页视作节点(node),而将超链接视作边(edge)。

每个节点的权重值表示对应的页面的重要度。

通向该网页的超链接称做“对该网页的投票(a vote of support)”。每个网页的权重值大小被递归地定义,依托于所有链接该页面的页面的权重值。例如,一个被很多页面的链接的页面将会拥有较高的权重值(high PageRank)。

1.1 Node Similarity & Proximity

在介绍PageRank 需要先来提一下 什么叫节点相似。

假设在一个有向图集合G(V,E)G(V, E)中研究两个节点u,vu, v之间的相关性.

cs224w:slide11---PageRank(下)
上图, 我们可以从感性的认识上判断u,vu, v之间的相似高要比u,wu, w之间的相似度要高。那如何来具体定义相似度呢?

(1)
  1. common neighbor
  2. Jaccard
  3. Adamic-Adar Index
(2)

当然还可以按计算时用到部分点还是全部点来进行分类:

  1. local:Common Neighbors(CN), Jaccard,Adamic-Adar Index
  2. Personalized PageRank(PPR), SimRank, Katz

2、Personalized PageRank

3、Random Walk with Restarts