爬虫杂记1

     计算机上面的东西如果你不把它放在硬盘里面,它都是在内存里面,只有这两个硬件可以存储东西,所以爬虫匹配出来的结果如果没有放在硬盘里的,都是在内存 里面。解释工具(匹配)有正则,xapth,bs4,json只能转换成类似字典的数据。免费的代理ip,可用性很差,100个可能也没有一个可以用,并且过期 时间很快。所以一般不用免费的代理。安卓系统和苹果系统都是基于unix或者linux开发的,所以都可以用命令行来操作,后来unix收费了,所以有了后来的Linux。

       python写系统命令就直接import os  

      爬虫的开发流程:分析网页结构---寻找目标数据有三种方法---1.直接通过源代码返回数据,即查看网页 的源代码然后在那里搜索(这种方式有时候是不行的)   2.ajax异步请求动态渲染(加载,显示的内容并没有在那个网页里面,而是在后台或者别的地方)    3.数据混淆(即js加密)

     request是爬虫的请求包,通过这个包几乎可以解决所有请求的功能。

     正则表达式有时候可能会失效,失效的原因有很多,不过大多数是因为网页的结构发生了变化。


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


response 返回的其实URL的源代码。


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1







爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1










爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1


爬虫杂记1