零代码爬取全国高校信息(火车采集器)
我们以阳光高考网为例,用火车爬取器零代码爬取全国高校的部分信息
- 进入阳光高考网的院校库,随便点进去一个学校,看他的url,比如第一个北大(https://gaokao.chsi.com.cn/sch/schoolInfoMain--schId-1.dhtml),第二个人大(https://gaokao.chsi.com.cn/sch/schoolInfoMain--schId-2.dhtml),最后一个*工业职业技术学院(https://gaokao.chsi.com.cn/sch/schoolInfoMain--schId-1677831015.dhtml)。很有规律的是,每个url除了左后的数字不一样,其他的都一样,那么,就可以开始了
- 进入火车采集器,我们在分组的一栏右键新建一个分组,选择分组新建一个任务
- 添加起始网址
选择添加
,这里进入批量/多页
,把北京大学的url复制到地址格式中,把数字一框选,点击右方的(*)
替换为变量,在下面的等差数列设置中设置首项为1,公差为1,项数为了快一点,这里就设置了100,实际应该是1677831015。设置完后点击添加
,点击完成
- 可以通过
测试网页采集
查看会去采集的网页,然后设置一个cookie,点击旁边的浏览器登录获取
,随便复制一个网页的url进去就行了,完了就切换到第二步
- 先把预设的全部
删除
,然后点击添加
- 回到北京大学的网页,按F12和使用右键查看网页的源代码,使用左边的工具,指向感兴趣的内容,下方的代码就会跳转到这个内容的地方
这时候可以源代码网页中使用ctrl+f看看这些标签是否重复,找到北京大学上面最近的唯一的标签
然后回到火车采集器,新建名为学校名的标签,内容可以按照如下填写,可以更具需求设置数据处理,这里我选择了HTML标签过滤,可以过滤掉北京大学前面的<a href="/sch/schoolInfoMain--schId-1.dhtml">
标签
- 其他需要什么信息按如此添加标签进行设置就行了,添加了可以在右边使用其他的url进行测试,完了之后来到
第三步
- 下面按照此设置,模板不要用默认的,按它默认模板的位置在你的电脑上找到默认的模板,复制一份出来
按记事本打开模板进行修改,按他的格式,用逗号分隔,每一块都改为自己的标签名,第二行不变,比如这里就是这样的。完了之后在火车头中使用这个修改过的模板
- 完了之后
保存
,在主界面的任务列表树下面找到自己的分组,点击+
号看到自己的任务,把三个框都勾上,就可以点击上面的开始
了
- 运行的时候就是这个鸟样,等他就行了
- 完了就打开那个csv看看吧,差不多了
额。。。好像手贱删了,就不用看了,大概就是这样的