爬虫整理临时
js和xhr都是请求类型的过滤条件,js代表直接请求的js文件,xhr代表的是ajax请求
对文件类型的过滤,XHR代表当前页面执行的时候网络请求,JS代表当前页面所加载的JS文件。
Network的功能是:记录在当前页面上发生的所有请求。
现在看上去好像空空如也的样子,这是因为Network记录的是实时网络请求。现在网页都已经加载完成,所以不会有东西。
刷新一下页面,浏览器会重新访问网络,这样就会有记录。
当我们使用requests.get(url)时,只是获取了请求中的第一个,当这个请求中不包含我们需要的代码时,那么,就需要在其他请求中查找。
为什么我们之前体验过的开课吧食堂和豆瓣都能够直接爬取我们需要的信息呢?
这些网页直接把所有的关键信息都放在第1个请求里,我们用requests和BeautifulSoup就能解决它们。
红色的圆钮是启用Network监控(一般浏览器默认是打开的,用高亮显示),灰色圆圈是清空面板上的信息。