利用notePad++格式化处理网页拷下来的代码

因为工作需求,需要我从别的网页上对接一部分数据,但是因为数据量比较多,人为手打的话,花费大量的时间和精力,特此,学习notePad++进行便捷处理,特此记录。

一、首先,我们需要从目标网页down数据下来,找到对应网页,进入开发者模式(按F12也行),找到对应代码,右键,点击Edit as HTML,复制所需代码。

利用notePad++格式化处理网页拷下来的代码
利用notePad++格式化处理网页拷下来的代码
二、将复制出来的代码,使用notePad++打开,并简单进行格式处理。如下
利用notePad++格式化处理网页拷下来的代码
三、现在分析需求,我们要得到其中所有的中文,并处理为如下json格式。
利用notePad++格式化处理网页拷下来的代码
四、现在开始进行处理,首先使用正则表达式标记中文所在行,
ctrl+F 选择标记、选中正则表达式、标记所在行,点击查找全部。(这里中文正则表达式为 [\x{4e00}-\x{9fa5}])
利用notePad++格式化处理网页拷下来的代码
利用notePad++格式化处理网页拷下来的代码
五、菜单(搜索 - 书签 - 删除未标记行),删除不必要的数据。处理结果如下
利用notePad++格式化处理网页拷下来的代码
六,到这里基本数据就处理完了,剩下就是些简单的字符替换工作,最终处理结果为。
利用notePad++格式化处理网页拷下来的代码
七、搞定!收工,又学到一招!