如何快速采集今日头条的新闻资讯
使用简数采集今日头条新闻(自媒体文章采集),非常简单,只需输入:头条号ID或者新闻分类ID或者关键词。
使用步骤:
1. 创建今日头条采集任务:
新建今日头条采集任务有两个入口:
-
在控制台左侧 “采集任务管理” 列表中,点击 “采集今日头条”;
-
在创建任务栏目处,点击 “+今日头条”;
2. 今日头条采集任务配置:
-
填写任务名 、选择采集方式(按头条号ID、新闻分类ID或者关键词)、输入对应值和采集页数,保存,即可启动抓取。
还可以同时使用多个ID或关键词,多个用逗号,分隔即可。(是半角逗号);
-
‘数据处理(可选)’ 处可做一些简单数据处理,删除图片或链接,添加版权说明等;
-
今日头条采集的原始图片是无法正常显示的(防盗链),如需图片,请在“图片下载配置”中,选择暂存简数或阿里云OSS或七牛存储;
提示:头条号ID和新闻分类ID获取方式,请查看下方附录;
3. 采集结果:
默认采集字段:
今日头条号名称(x_name),头条号ID(x_id),标题(title),正文(content),发布日期(pubData),作者(author),标签(tag),描述(description,可使用正文截取)和关键字(keywords);
采集今日头条注意事项:
-
采集的是今日头条“新闻”,每页可能采集到20条;
-
今日头条采集可能受IP代理可用性或网络状态影响,有时可能获取不到数据,建议重试。
附录:(如何获取头条号ID和新闻分类ID)
I、如何获取头条号ID
使用chrome浏览器打开对应头条号主页,按下F12
键进入开发者工具,然后点击手机端模式,按下F5
键刷新页面,在网址栏处即可获取头条号user_id;
下图例子,环球网对应的头条号ID为 5954781019;
II、如何获取新闻分类ID
进入今日头条新闻主页,点击左侧任意一个分类栏目,查看url地址;
下图例子,科技分类其对应的ID为 news_tech;