如何处理这个字符串?
问题描述:
我有一个包含这样的文本的html文件:如何处理这个字符串?
<p>يورونيوز: <br />
“ يقال إن للقمر تأثير كبير على نمو المزروعات، وأزهار الحدائق وخاصة النبيذ . “ </p>
现在我想删除
并串连两行之一。我怎样才能做到这一点?我不得不提及“用于双引号,我将它在连接后替换。 我用这个代码,但它不工作:
sed -i -e '/<br \/>[ \r\t\n]+/d' 1.html
答
sed
逐行读取内容系,因此,你不能只是删除“\ n”字符。 sed
默认情况下不可见。 请先阅读下一行追加到模式空间后,才可以删除\n
字符:
SED -e '/ \ s] + $/{N; d}' 1.HTML
有一件事我不明白:你打算删除<br>
和下一行吗?如果是这样,上面的代码是正确的。
答
rush正确命名您的代码无法正常工作的原因;这个版本做你想要的。
sed -i '/<br \/>\s*$/{N;s/<br \/>\s*//}' 1.html