python爬取虎扑论坛帖子数据

准备工作

安装Python、安装MySQL、虚拟机【选择性,后期将每日放在服务器上执行定时任务使用】

    1、安装python:选择3.*,过程忽略

    2、安装MySQL:选择5.6版本及以上,过程忽略

    3、虚拟机:linux系列,过程忽略

需求描述

爬取虎扑论坛帖子,了解帖子内容、作者、热度等。

写脚本

一共分为三部分:part1通过对当前链接进行分析,提取帖子作者、阅读的信息;part2取得帖子本身的内容;part3对发帖人进行数据提取,为后期分析提供思路。具体的脚本如下。需要注意的是:编码、编码、编码。谢谢!

注:由于虎扑的反爬虫导致可细分论坛的可读取页面数为10(突破防御失败,谢谢!)这种情况下,我的处理方式是将脚本放入服务器中每日爬取进行累积。

Part1:爬取帖子的名称、作者、创建时间、阅读/回复、作者链接等,并放入本地MySQL数据库

python爬取虎扑论坛帖子数据

Part2:增加贴子内容并更新部分字段

python爬取虎扑论坛帖子数据

Part3:爬取注册用户信息

python爬取虎扑论坛帖子数据