空间向量搜索引擎技术原理

概述: 

    空间向量搜索引擎比较两篇文档的相似度是利用矩阵代数中非常简单的技术词频来做比较的。

    空间向量搜索引擎最重要的组成部分就是理解项空间(term space)的概念,简单的来说,项空间由整理好的一篇文档中所出现的关键字所组成的。

    空间向量搜索引擎还有一个比较重要的组成部分就是项数,项数就是简单的记录一篇文档中所出现关键字的次数,它们经常和一些图、表一起使用。

    把一个项空间当做一个坐标空间来使用,项数作为坐标空间中的坐标来使用,我们可以为每一个文档创建一个项量。为我们能更好的理解怎么创建 这些项量,让我们看一些简单的例子,你可能熟悉笛卡尔的坐标系的概念;在一个坐标系中有x、y、z轴。同样在一个项空间中有3个唯一的项,我们可以根据坐标系中的3个坐标轴来画出项空间的3个轴,(在向量空间搜索理论这些轴通常被称为维数).通过计算每一个项在一篇文档中出现的次数,画出每一个项的坐标,每一篇文档对应一个坐标点,从该坐标点到(0.0.0)起始点为这篇文档的向量。

    一旦我们在项空间中画出一篇文档的向量,我们就可以计算出这个向量的大小,这个向量的大小长度就是该文档在项空间的点到原点(0.0.0)之间的的线长,两篇文档的相似度就是比较两篇文档在项空间的向量的cos值,两篇完全相同的文档的cos值就是为1,包含类似项的文档将具有正的十进制cos值,两篇没有共同项的cos值为0。

示例:

    我们通过一个简单的三维例子来完成我们的搜索和索引。

    我们假定有整理好的3篇文章,它们有cat、dog、mouse这3个关键字,把这3个字看作它们的项空间,这3篇文章在项空间中都有他们的坐标值,这些值的大小就是3个关键字在文档中出现的次数,在例子中,文档1中的项空间大小为(3,1,4)

空间向量搜索引擎技术原理

 

http://ondoc.logand.com/d/2697/pdf