零代码爬取全国高校信息（火车采集器）

我们以阳光高考网为例，用火车爬取器零代码爬取全国高校的部分信息

链接：https://pan.baidu.com/s/10aw0_yi4DVJdtpAPtCivtA 密码：tnwx

进入阳光高考网的院校库，随便点进去一个学校，看他的url，比如第一个北大（https://gaokao.chsi.com.cn/sch/schoolInfoMain--schId-1.dhtml），第二个人大（https://gaokao.chsi.com.cn/sch/schoolInfoMain--schId-2.dhtml），最后一个*工业职业技术学院（https://gaokao.chsi.com.cn/sch/schoolInfoMain--schId-1677831015.dhtml）。很有规律的是，每个url除了左后的数字不一样，其他的都一样，那么，就可以开始了
进入火车采集器，我们在分组的一栏右键新建一个分组，选择分组新建一个任务
添加起始网址

选择添加，这里进入批量/多页，把北京大学的url复制到地址格式中，把数字一框选，点击右方的(*)替换为变量，在下面的等差数列设置中设置首项为1，公差为1，项数为了快一点，这里就设置了100，实际应该是1677831015。设置完后点击添加，点击完成
可以通过测试网页采集查看会去采集的网页，然后设置一个cookie，点击旁边的浏览器登录获取，随便复制一个网页的url进去就行了，完了就切换到第二步
先把预设的全部删除，然后点击添加
回到北京大学的网页，按F12和使用右键查看网页的源代码，使用左边的工具，指向感兴趣的内容，下方的代码就会跳转到这个内容的地方

这时候可以源代码网页中使用ctrl+f看看这些标签是否重复，找到北京大学上面最近的唯一的标签

然后回到火车采集器，新建名为学校名的标签，内容可以按照如下填写，可以更具需求设置数据处理，这里我选择了HTML标签过滤，可以过滤掉北京大学前面的<a href="/sch/schoolInfoMain--schId-1.dhtml">标签
其他需要什么信息按如此添加标签进行设置就行了，添加了可以在右边使用其他的url进行测试，完了之后来到第三步
下面按照此设置，模板不要用默认的，按它默认模板的位置在你的电脑上找到默认的模板，复制一份出来

按记事本打开模板进行修改，按他的格式，用逗号分隔，每一块都改为自己的标签名，第二行不变，比如这里就是这样的。完了之后在火车头中使用这个修改过的模板
完了之后保存，在主界面的任务列表树下面找到自己的分组，点击+号看到自己的任务，把三个框都勾上，就可以点击上面的开始了
运行的时候就是这个鸟样，等他就行了
完了就打开那个csv看看吧，差不多了
额。。。好像手贱删了，就不用看了，大概就是这样的

零代码爬取全国高校信息（火车采集器）

相关推荐