如何抓取我自己的网站?

问题描述:

我继承老传统ASP网站修改。虽然没有预先要求,但我想删除一堆旧的“孤立”页面。如何抓取我自己的网站?

出于某种原因,老开发人员决定创建该文件,而不是使用源代码控制(如index-t.asp, index-feb09.asp, index-menutest.asp)的muliple实例。

我不知道是否有人知道一个程序或网站,可以抓取我自己的网站吗?它可能需要能够抓取公共站点,因为有很多包含文件。另外,一些网址是相对的,有些是绝对的。

+0

这与垃圾收集 – Artelius 2009-05-03 01:15:51

我最喜欢的工具是Xenu

+0

相似之处难道你们所知道的如果这个软件有递归功能?或限制? – bendewey 2009-05-03 03:25:09

+0

如果它有一个限制,我没有击中它。我在超过10,000页的网站上使用了这个功能。还要注意的是不像W3C的工具(这是罚款,只要它去),这个工具能够检测到孤儿的网页,如果你允许它到你的网站的FTP访问的能力。 最后,不像其他一些建议的技术,Xenu向网站发出真正的请求,所以它在动态生成的网页中工作得很好。 这里是Winipedia页:http://en.wikipedia.org/wiki/Xenu%27s_Link_Sleuth。 – JonnyBoats 2009-05-03 12:04:01

+0

谢谢,这对我很好。 – bendewey 2009-05-03 20:39:21

还有W3C的链接检查:http://validator.w3.org/checklink

+0

当我爬行递归时,这有150页的限制 – bendewey 2009-05-03 03:27:35

你不应该让一个曾经有效的URL去陈旧。糟糕的web开发人员没有饼干!

你应该考虑:

  1. 把整个现有的网站源代码控制,然后
  2. 删除多余的页面,看看谁抱怨