如何抓取我自己的网站?
我继承老传统ASP网站修改。虽然没有预先要求,但我想删除一堆旧的“孤立”页面。如何抓取我自己的网站?
出于某种原因,老开发人员决定创建该文件,而不是使用源代码控制(如index-t.asp, index-feb09.asp, index-menutest.asp
)的muliple实例。
我不知道是否有人知道一个程序或网站,可以抓取我自己的网站吗?它可能需要能够抓取公共站点,因为有很多包含文件。另外,一些网址是相对的,有些是绝对的。
我最喜欢的工具是Xenu。
相似之处难道你们所知道的如果这个软件有递归功能?或限制? – bendewey 2009-05-03 03:25:09
如果它有一个限制,我没有击中它。我在超过10,000页的网站上使用了这个功能。还要注意的是不像W3C的工具(这是罚款,只要它去),这个工具能够检测到孤儿的网页,如果你允许它到你的网站的FTP访问的能力。 最后,不像其他一些建议的技术,Xenu向网站发出真正的请求,所以它在动态生成的网页中工作得很好。 这里是Winipedia页:http://en.wikipedia.org/wiki/Xenu%27s_Link_Sleuth。 – JonnyBoats 2009-05-03 12:04:01
谢谢,这对我很好。 – bendewey 2009-05-03 20:39:21
你不应该让一个曾经有效的URL去陈旧。糟糕的web开发人员没有饼干!
你应该考虑:
- 把整个现有的网站源代码控制,然后
- 删除多余的页面,看看谁抱怨
这与垃圾收集 – Artelius 2009-05-03 01:15:51