下载网站在python中脱机浏览

问题描述:

我正在开发一个项目,下载一个2层的网站供离线浏览。下载网站在python中脱机浏览

虽然我面临着CSS,JS,图片的问题,

现在我的代码保存索引HTML文件和更改所有的链接,绝对避免在href问题。

但它不是工作用于脱机浏览。

我的问题是如何编写一个脚本,只下载2层的网站进行脱机浏览,并保存所有的CSS,JS和图像以便完全脱机浏览?

PS。我知道我可以使用请求并将文件写入本地,但是如何将其置于正确的文件夹? 例如。 /far/boo/image.png/far/boo/css.css

+0

有很多插件已经为喜欢网页存档,剪贴簿 –

+0

你需要做一个版本的自己,或一些Python的lib这样做了,你会做什么?我在说'wget' –

+0

@RITESHARORA这不是我要找的,但是谢谢 @AndrewCherevatkin我正在看'wget',但那不适合我的使用:( –

感谢上面的评论让我的方向找到我的答案。

我最终使用requests.get("http://somesites.com/far.boo", stream=True, headers= head)与一些循环来完成这项工作。

定义先拔头筹,

head = {"User-Agent": "Mozilla/5.0 ..."}

我找到了我在https://httpbin.org/headers

这是一个有点难看,但正常工作。

参考:download image from url using python urllib but receiving HTTP Error 403: Forbidden