数据采集过程中快速删除HTML标签方法
简数采集平台已集成丰富的数据处理功能,可以在采集过程中一并把数据进行加工。这一章节就要讲关于删除HTML标签及其包含内容,可以指定位置和数量,支持保留文本;
详细使用步骤:
1. HTML标签删除
HTML标签删除可设置以下属性:
-
指定删除位置:前面,最后,第几个,倒数第几个,全部;
-
删除数量:填写数字,如果指定位置选择全部,此处则不用填写;
-
删除的标签名称:系统提供一些常见的标签,点击选择,支持搜索;
-
保留文本:勾上则保留标签中的文本,默认不保留;
2. 删除多余内容
有些正文前面或者后面会添加一些宣传,广告等多余内容, 如果在选择采集区域时无法将多余信息和正文分开时,且每篇文章都有一样的多余内容,就可以尝试用删除HTML标签来解决。
I、获取多余内容标签
测试采集,查看数据预览的代码模式;
II、删除HTML标签设置
从预览代码可以看出,只要删除最后两个span标签和最后一个ul标签即可;
III、采集结果
重新测试采集,查看采集结果;
IV、无标签文本
如果只出现文本,没有对应包裹的标签,可能是系统默认过滤部分不常用的标签导致,可以设置保留对应标签,再进行删除,详情可看HTML标签过滤;
较常见的是div标签,先设置保留div标签,再删除对应div标签;