下载网站在python中脱机浏览
问题描述:
我正在开发一个项目,下载一个2层的网站供离线浏览。下载网站在python中脱机浏览
虽然我面临着CSS,JS,图片的问题,
现在我的代码保存索引HTML文件和更改所有的链接,绝对避免在href问题。
但它不是工作用于脱机浏览。
我的问题是如何编写一个脚本,只下载2层的网站进行脱机浏览,并保存所有的CSS,JS和图像以便完全脱机浏览?
PS。我知道我可以使用请求并将文件写入本地,但是如何将其置于正确的文件夹? 例如。 /far/boo/image.png
或/far/boo/css.css
答
感谢上面的评论让我的方向找到我的答案。
我最终使用requests.get("http://somesites.com/far.boo", stream=True, headers= head)
与一些循环来完成这项工作。
定义先拔头筹,
head = {"User-Agent": "Mozilla/5.0 ..."}
我找到了我在https://httpbin.org/headers
这是一个有点难看,但正常工作。
参考:download image from url using python urllib but receiving HTTP Error 403: Forbidden
有很多插件已经为喜欢网页存档,剪贴簿 –
你需要做一个版本的自己,或一些Python的lib这样做了,你会做什么?我在说'wget' –
@RITESHARORA这不是我要找的,但是谢谢 @AndrewCherevatkin我正在看'wget',但那不适合我的使用:( –