如何抓取我自己的网站？

问题描述：

我继承老传统ASP网站修改。虽然没有预先要求，但我想删除一堆旧的“孤立”页面。如何抓取我自己的网站？

出于某种原因，老开发人员决定创建该文件，而不是使用源代码控制（如index-t.asp, index-feb09.asp, index-menutest.asp）的muliple实例。

我不知道是否有人知道一个程序或网站，可以抓取我自己的网站吗？它可能需要能够抓取公共站点，因为有很多包含文件。另外，一些网址是相对的，有些是绝对的。

这与垃圾收集 – Artelius 2009-05-03 01:15:51

答

我最喜欢的工具是Xenu。

相似之处难道你们所知道的如果这个软件有递归功能？或限制？ – bendewey 2009-05-03 03:25:09

如果它有一个限制，我没有击中它。我在超过10,000页的网站上使用了这个功能。还要注意的是不像W3C的工具（这是罚款，只要它去），这个工具能够检测到孤儿的网页，如果你允许它到你的网站的FTP访问的能力。最后，不像其他一些建议的技术，Xenu向网站发出真正的请求，所以它在动态生成的网页中工作得很好。这里是Winipedia页：http://en.wikipedia.org/wiki/Xenu%27s_Link_Sleuth。 – JonnyBoats 2009-05-03 12:04:01

谢谢，这对我很好。 – bendewey 2009-05-03 20:39:21

答

还有W3C的链接检查：http://validator.w3.org/checklink

当我爬行递归时，这有150页的限制 – bendewey 2009-05-03 03:27:35

答

你不应该让一个曾经有效的URL去陈旧。糟糕的web开发人员没有饼干！

答

你应该考虑：

把整个现有的网站源代码控制，然后
删除多余的页面，看看谁抱怨

如何抓取我自己的网站？

相关推荐