利用python爬取富二代视频中的资源(仅供学习)

其实通过python来爬取视频网站或软件中的资源并不是很复杂,主要是通过requests.get() + 正则表达式 + 文件存储
有原版富二代视频的话,就不需要抓取这样的操作了。
原版富二代短视频下载地址
1、一开始,我们要确定好所要抓取的内容有哪些,先定义一个item,如图所示。
利用python爬取富二代视频中的资源(仅供学习)
2、紧接着,我们就要开始编写爬虫文件了:
(我们要先构造一个初始的url解析函数,得到富二代原网站的视频分类请求,同时在本地生成一个存储文件的目录);
利用python爬取富二代视频中的资源(仅供学习)
3、接着定义具体模块的解析函数,支持分页的爬取;
利用python爬取富二代视频中的资源(仅供学习)利用python爬取富二代视频中的资源(仅供学习)
4、然后再返回item给管道文件,如图所示;
利用python爬取富二代视频中的资源(仅供学习)
5、然后再实现一个去重管道,这主要的目的是过滤掉重复的数据;
利用python爬取富二代视频中的资源(仅供学习)
6、接着将数据存储到mysql的存储管道,此处也可选择其他种类数据库进行存储;
利用python爬取富二代视频中的资源(仅供学习)
7、其实到了这一步,我们就已经可以通过这个程序进行爬取了,但需要注意的是,我们利用scrapy对某个网站进行了频繁而多次的访问请求之后,其会判定我们为爬虫,然后中断和我们的连接。
所以我们还需要使用动态代理重新发送请求,如下图所示代码。
利用python爬取富二代视频中的资源(仅供学习)
8、最后等待爬虫为我们爬取就行了。
利用python爬取富二代视频中的资源(仅供学习)