如何禁止robots.txt中的特定页面,但允许其他所有内容?
问题描述:
这是做到这一点的方法吗?如何禁止robots.txt中的特定页面,但允许其他所有内容?
User-agent: *
Allow:/
Disallow: /a/*
我有这样的网页:
mydomaink.com/a/123/group/4
mydomaink.com/a/xyz/network/google/group/1
我不想让他们出现在谷歌。
答
您的robots.txt外观正确。如果你想百分百肯定,你可以test in in your Google's Webmaster Tools account。
仅供参考,屏蔽robots.txt中的页面而不是保证它们不会显示在搜索结果中。它只会阻止搜索引擎抓取这些页面。他们仍然可以列出他们,如果他们想。为了防止页面被编入索引并列出,您需要使用x-robots-tag
HTTP标头。
如果您使用Apache,你可以把一个文件放在/a/
目录下面的行有效地阻止这些网页:
<IfModule mod_headers.c>
Header set X-Robots-Tag: "noindex"
</IfModule>