使用SED编辑HTML
问题描述:
在Linux中,执行以下命令下载的“第一个星期一”的文章:使用SED编辑HTML
wget -O first_monday.html http://www.uic.edu/htbin/cgiwrap/bin/ojs/index.php/fm/article/view/3156/2747
使用sed和正则表达式来first_monday.html编辑如下:
删除空/空白段落,如果有的话。 (HTML段落开始标记为<p>
和结束标记是</p>
)
<p>This is some text in a paragraph.</p>
段落是空的,如果没有什么或者只在<p>
和</p>
之间
删除所有图像空格或制表符(在HTML中,图像与<img>
标签定义示例:
<img src="html5.gif" alt="The official HTML5 Icon">
生成的文件应该仍然是有效的HTML文件,在标准web浏览器可显示。对于你的答案,复制/粘贴你用来回答这个问题的命令。例如,如果你使用了类似的命令
sed -iback -e 's|<p>[[:space:]]*</p>||g' first_monday.html
那么你会粘贴命令,以及你在回答这个领域的任何人。
不要使用SED:http://*.com/a/1732454/7552 –
[除XHTML自足标签的正则表达式匹配开放标签](可能的重复http://*.com/问题/ 1732348 /正则表达式匹配开放标签除了xhtml自包含标签) –
气味像功课。你有什么尝试?你有什么问题? – choroba