如何禁止robots.txt中的特定页面，但允许其他所有内容？

问题描述：

User-agent: * 
Allow:/
Disallow: /a/*

我有这样的网页：

mydomaink.com/a/123/group/4 
mydomaink.com/a/xyz/network/google/group/1

我不想让他们出现在谷歌。

答

您的robots.txt外观正确。如果你想百分百肯定，你可以test in in your Google's Webmaster Tools account。

仅供参考，屏蔽robots.txt中的页面而不是保证它们不会显示在搜索结果中。它只会阻止搜索引擎抓取这些页面。他们仍然可以列出他们，如果他们想。为了防止页面被编入索引并列出，您需要使用x-robots-tag HTTP标头。

如果您使用Apache，你可以把一个文件放在/a/目录下面的行有效地阻止这些网页：

<IfModule mod_headers.c> 
    Header set X-Robots-Tag: "noindex" 
</IfModule>