数据采集过程中快速删除HTML标签方法

简数采集平台已集成丰富的数据处理功能,可以在采集过程中一并把数据进行加工。这一章节就要讲关于删除HTML标签及其包含内容,可以指定位置和数量,支持保留文本;

详细使用步骤:

  1. HTML标签删除
  2. 删除多余内容

 

1. HTML标签删除

数据采集过程中快速删除HTML标签方法

  HTML标签删除可设置以下属性:

  • 指定删除位置:前面,最后,第几个,倒数第几个,全部;

  • 删除数量:填写数字,如果指定位置选择全部,此处则不用填写;

  • 删除的标签名称:系统提供一些常见的标签,点击选择,支持搜索;

  • 保留文本:勾上则保留标签中的文本,默认不保留;

数据采集过程中快速删除HTML标签方法

 

2. 删除多余内容

  有些正文前面或者后面会添加一些宣传,广告等多余内容, 如果在选择采集区域时无法将多余信息和正文分开时,且每篇文章都有一样的多余内容,就可以尝试用删除HTML标签来解决。

I、获取多余内容标签

  测试采集,查看数据预览的代码模式;

数据采集过程中快速删除HTML标签方法

数据采集过程中快速删除HTML标签方法

II、删除HTML标签设置

  从预览代码可以看出,只要删除最后两个span标签和最后一个ul标签即可;

数据采集过程中快速删除HTML标签方法

III、采集结果

  重新测试采集,查看采集结果;

数据采集过程中快速删除HTML标签方法

IV、无标签文本

  如果只出现文本,没有对应包裹的标签,可能是系统默认过滤部分不常用的标签导致,可以设置保留对应标签,再进行删除,详情可看HTML标签过滤

  较常见的是div标签,先设置保留div标签,再删除对应div标签;

数据采集过程中快速删除HTML标签方法

数据采集过程中快速删除HTML标签方法

数据采集过程中快速删除HTML标签方法