使用SED编辑HTML

问题描述:

在Linux中,执行以下命令下载的“第一个星期一”的文章:使用SED编辑HTML

wget -O first_monday.html http://www.uic.edu/htbin/cgiwrap/bin/ojs/index.php/fm/article/view/3156/2747 

使用sed和正则表达式来first_monday.html编辑如下:

删除空/空白段落,如果有的话。 (HTML段落开始标记为<p>和结束标记是</p>

<p>This is some text in a paragraph.</p> 

段落是空的,如果没有什么或者只在<p></p>之间

删除所有图像空格或制表符(在HTML中,图像与<img>标签定义示例:

<img src="html5.gif" alt="The official HTML5 Icon"> 

生成的文件应该仍然是有效的HTML文件,在标准web浏览器可显示。对于你的答案,复制/粘贴你用来回答这个问题的命令。例如,如果你使用了类似的命令

sed -iback -e 's|<p>[[:space:]]*</p>||g' first_monday.html 

那么你会粘贴命令,以及你在回答这个领域的任何人。

+1

不要使用SED:http://*.com/a/1732454/7552 –

+0

[除XHTML自足标签的正则表达式匹配开放标签](可能的重复http://*.com/问题/ 1732348 /正则表达式匹配开放标签除了xhtml自包含标签) –

+1

气味像功课。你有什么尝试?你有什么问题? – choroba

首先,您可以使用删除空段落标记以下命令

sed -i 's|<p>[[:space:]]*</p>||g' first_monday.html 

接下来,你的形象标签也被删除使用命令,如下所示同样的方式;

sed -i 's|<img /*>||g' first_monday.html