爬取网页制作本地的documention

小伙伴们在使用开源的组件时,由于其不能一直联网或由于网速的限制,点击网页过慢,希望使用离线的版本学习开源组件时,然而却苦恼于在主页上始终找不到documention的下载入口而发愁,这时爬取网页保存本地并形成文档或者html就应用而生,我也是苦于寻找离线手册而不得时,偶然发现可以这样做。

软件名 描述 下载地址

Teleport Ultra

(必备)

用于爬取网页页面

1.csdh地址

2.  https://pan.baidu.com/s/1s9WZWmeeQCfBkRZDrnTQnQ 密码: wbj2

Easy CHM

(可选)

用于将导出的网页

制作成chm电子

https://pan.baidu.com/s/13kK_91NSED6mlrTRIu6PWw 密码: 5xad

以上两个软件属于**版或者免安装,可直接使用。

我以apache james 为例子进行介绍

1.我想获取james的文档但在网页上只看到在线的介绍,此时打开Teleport Ultra,选择新建项目向导

爬取网页制作本地的documention


2.进行爬取设置 选择爬取网站

爬取网页制作本地的documention


3.输入爬取网址和层数,其中网址为爬取起始目标,层数一般是指在当前页面上递归的层数,一般选择3,我选择为2,因为3的话会爬取很深甚至整个网站,而我是为了爬取手册,在当前页面上的连接再爬取一次就够了,所以设置为2

爬取网页制作本地的documention

这里我选择爬取所有文件,包含网页的js,cs等效果,下一步时会让使用者选择文件保存位置。

爬取网页制作本地的documention


4.然后点击开始

爬取网页制作本地的documention


5.爬取完后在之前保存位置里去找复制网页的那个页面名字作为首页,点开就可使用。比如我要爬取的http://james.apache.org/server/3/index.html,那我就找index.html作为首页即可使用