爬取网页制作本地的documention
小伙伴们在使用开源的组件时,由于其不能一直联网或由于网速的限制,点击网页过慢,希望使用离线的版本学习开源组件时,然而却苦恼于在主页上始终找不到documention的下载入口而发愁,这时爬取网页保存本地并形成文档或者html就应用而生,我也是苦于寻找离线手册而不得时,偶然发现可以这样做。
软件名 | 描述 | 下载地址 |
Teleport Ultra (必备) |
用于爬取网页页面 |
1.csdh地址 2. https://pan.baidu.com/s/1s9WZWmeeQCfBkRZDrnTQnQ 密码: wbj2 |
Easy CHM (可选) |
用于将导出的网页 制作成chm电子 |
https://pan.baidu.com/s/13kK_91NSED6mlrTRIu6PWw 密码: 5xad |
以上两个软件属于**版或者免安装,可直接使用。
我以apache james 为例子进行介绍
1.我想获取james的文档但在网页上只看到在线的介绍,此时打开Teleport Ultra,选择新建项目向导
2.进行爬取设置 选择爬取网站
3.输入爬取网址和层数,其中网址为爬取起始目标,层数一般是指在当前页面上递归的层数,一般选择3,我选择为2,因为3的话会爬取很深甚至整个网站,而我是为了爬取手册,在当前页面上的连接再爬取一次就够了,所以设置为2
这里我选择爬取所有文件,包含网页的js,cs等效果,下一步时会让使用者选择文件保存位置。
4.然后点击开始
5.爬取完后在之前保存位置里去找复制网页的那个页面名字作为首页,点开就可使用。比如我要爬取的http://james.apache.org/server/3/index.html,那我就找index.html作为首页即可使用