有没有办法阻止Googlebot索引页面的某些部分?

问题描述:

是否可以微调指令到谷歌的程度,以至于它会忽略页面的一部分,但仍然索引其余的?有没有办法阻止Googlebot索引页面的某些部分?

有几个不同的问题,我们已经遇到这将由该得到帮助,如:从外部源在页面显示内容

  • RSS源/新闻股票型文本
  • 用户输入联系电话等详细信息,谁希望他们在网站上可见,但宁愿他们没有谷歌,能够

我知道,上述两个可以通过其他技术(如书面致内容与JavaScript),但我想知道如果有人知道Google是否有更清洁的选项?

我一直在对此进行一些挖掘,并且遇到了提及googleon and googleoff tags的提示,但这些似乎是Google搜索设备专有的。

是否有人知道是否有一组类似的标签可供Googlebot使用?

编辑:只是为了澄清,我不想下去隐形的危险的路线/服务了不同的内容,谷歌,这就是为什么我想看看是否有一个“合法”的方式实现我想在这里做的事情。

您要求的内容无法完成,Google要么占据整个页面,要么不占用整个页面。

你可以做一些偷偷摸摸的伎俩,虽然就像插入你不想在iFrame中编入索引的部分页面一样,并使用robots.txt来要求Google不要索引该iFrame。

总之NO - 除非你使用隐形与Google泄密。

有机器人的元标记,还有robots.txt,你可以限制访问某些目录。

+0

元标记和robots.txt的都允许或限制上的文件级别的访问,我很好奇,如果你可以让网页建立索引,但阻止它的某一部分。 – ConroyP 2009-09-30 11:10:38

所有的搜索引擎要么索引要么忽略整个页面。实现你想要的东西,唯一可行的方法是:

(一)有两个不同版本的同一页的

(二)检测浏览器使用

(c)如果它是一个搜索引擎,为您的页面的第二个版本提供服务。

This link可能会证明是有帮助的。

+6

这是让您的网站禁止与Google – Greg 2009-09-30 11:10:56

+2

确实(http://www.google.com/support/webmasters/bin/answer.py?hl=zh_CN&answer=66355)的好方法:“根据以下内容投放不同的结果:用户代理可能会导致您的网站被视为具有欺骗性,并从Google索引中移除。“ – Anax 2009-09-30 11:13:11

在您的服务器上检测到使用PHP或ASP的IP搜索机器人。然后将属于该列表的IP地址提供给您希望编入索引的页面版本。在那个搜索引擎友好的页面版本中,使用规范链接标记来向搜索引擎指定您不希望被索引的页面版本。

通过这种方式,只有希望被索引的内容才会被编入索引,这样页面中的内容才会被索引。这种方法不会让你被搜索引擎阻止,并且是完全安全的。

+1

正如单独的评论所述,这可能会导致您的网站从Google中删除。 – Phrogz 2012-02-17 17:45:52

请从这里

http://code.google.com/apis/searchappliance/documentation/46/admin_crawl/Preparing.html

检查出的官方文档转到节“从索引中排除不需要的文本”

<!--googleoff: index--> 
here will be skipped 
<!--googleon: index--> 
+9

不幸的是,这只适用于Google Search Appliance,而不适用于Google公开的Google网站。 – Phrogz 2012-02-17 17:46:27

是绝对可以从索引的某些部分停止谷歌通过创建自定义robots.txt并编写您不想索引的部分,如wpadmins或特定的帖子或页面,以便通过创建此robots.txt文件轻松完成此操作。在创建检查y之前我们的网站robots.txt,例如www.yoursite.com/robots.txt。

发现使用某些重复内容的有用资源,并且不允许搜索引擎索引此类内容。

<p>This is normal (X)HTML content that will be indexed by Google.</p> 

<!--googleoff: index--> 

<p>This (X)HTML content will NOT be indexed by Google.</p> 

<!--googleon: index>