robots.txt的:不允许子目录,但允许目录
问题描述:
我想允许在文件的爬行:robots.txt的:不允许子目录,但允许目录
/directory/
,但不抓取的文件:
/directory/subdirectory/
是正确的robots.txt指令:
User-agent: *
Disallow: /subdirectory/
我怕,如果我不允许/目录/子目录/ ,我将解散允许/目录下的所有文件/我不想做的爬行,所以我是在正确使用:
User-agent: *
Disallow: /subdirectory/
答
您已经过度使用它:
User-agent: *
Disallow: /directory/subdirectory/
是正确的。
答
User-agent: *
Disallow: /directory/subdirectory/
蜘蛛也不傻,他们可以分析的路径:)
+0
我不明白你在说什么的实现。 – user523521 2011-03-22 01:54:05
+2
@user如果你做'cd/directory/subdirectory /'它会把你带到'目录'吗?不,重要的文件夹是路径中的最后一个,在这种情况下是“子目录”。 – alex 2011-03-22 02:07:07
不是用户代理:*不允许:/ directory/subdirectory /要删除/ directory /中的任何文件?我仍然希望搜索索引中的目录中的文件不在子目录/目录/子目录/ – user523521 2011-03-22 01:51:17
中的文件不,为什么会这样做?它禁止该子目录,而不是父目录。 – 2011-03-22 01:54:20
那么......作为我的研究的一部分,许多人在互联网上都表示禁止/ directory /子目录/不允许/ directory /中的所有文件,以便它有必要这样做:User-agent:* Disallow:/ directory /子目录/允许:/directory/index.html我只是想找出哪个是正确的? – user523521 2011-03-22 02:49:51