如何禁止robots.txt中的特定页面,但允许其他所有内容?

问题描述:

这是做到这一点的方法吗?如何禁止robots.txt中的特定页面,但允许其他所有内容?

User-agent: * 
Allow:/
Disallow: /a/* 

我有这样的网页:

mydomaink.com/a/123/group/4 
mydomaink.com/a/xyz/network/google/group/1 

我不想让他们出现在谷歌。

您的robots.txt外观正确。如果你想百分百肯定,你可以test in in your Google's Webmaster Tools account

仅供参考,屏蔽robots.txt中的页面而不是保证它们不会显示在搜索结果中。它只会阻止搜索引擎抓取这些页面。他们仍然可以列出他们,如果他们想。为了防止页面被编入索引并列出,您需要使用x-robots-tag HTTP标头。

如果您使用Apache,你可以把一个文件放在/a/目录下面的行有效地阻止这些网页:

<IfModule mod_headers.c> 
    Header set X-Robots-Tag: "noindex" 
</IfModule>