在PHP中自动生成META标记

问题描述:

我正在考虑编写一个PHP脚本来分析CMS的页面内容(即数据库字段),然后自动生成(X)HTML META描述&关键字标记,但是一如既往有没有重新发明*,所以我想知道如果有人知道这样一个兽人?在PHP中自动生成META标记

前者我想象的是一个相对简单的正则表达式来抓取第一个或第二个句子,而后者可能会涉及到消除常用单词词典中的单词,然后对频率或类似词汇进行加权。

您正在考虑的问题有两个:关键字提取和文档摘要之一。第一种,我明显用于关键字的方法有一种非常简单的朴素方法:挑选内容中最频繁的单词,减去所有停用词(如果您不知道这些词是什么,请在*中查看)。还有很多更高级的方法,包括加入同义词的权重,文本中的位置或标记等等。在PHP中有几个简单的关键字提取脚本示例,您可以毫不费力地执行这些脚本。只需Google搜索“PHP关键字提取”之类的东西,就可以找到一些。

另一方面,第二个问题有点难度,仍然是很多学术工作的来源。您需要汇总一个非常全面的元描述标签。如果你不想寻找一个可能仍然僵化或不连贯的长期人工智能项目,实际上可能不值得花时间。另一种方法是使用关键词提取的启发式方法:“这篇文章是关于(第一常见关键词),(第二常见关键词)和(第三常见关键词)”。您至少可以从关键字和描述中获得适合某些内容的好处。如果您想要改变它,请改用一些同义词。有一个半功能PHP implementation of WordNet,但我建议外包给Natural Language Toolkit for Python,因为大部分工作已经完成。

我想花点时间鼓励您在这方面的研究,并忽略Warnica先生的反馈。元信息对于搜索领域中的文档分类和信息提取都是重要的。如果没有这些数据,这将是愚蠢的,事实上,这对于大规模内容管理系统的自动化是值得的。祝你好运。

+0

感谢您的周到回答,并深入了解我来自哪里。我给你投了+1,但奇怪的是其他人似乎做了相反的事情--Warnica先生也许? – da5id 2009-01-06 03:46:35

雅虎管道Term Extractor模块做了类似于你想要的东西。不幸的是,我不知道管道模块的来源正在被打开。