如何处理这个字符串?

问题描述:

我有一个包含这样的文本的html文件:如何处理这个字符串?

<p>يورونيوز: <br /> 
&#8220; يقال إن للقمر تأثير كبير على نمو المزروعات، وأزهار الحدائق وخاصة النبيذ . &#8220; </p> 

现在我想删除
并串连两行之一。我怎样才能做到这一点?我不得不提及“用于双引号,我将它在连接后替换。 我用这个代码,但它不工作:

sed -i -e '/<br \/>[ \r\t\n]+/d' 1.html 

sed逐行读取内容系,因此,你不能只是删除“\ n”字符。 sed默认情况下不可见。 请先阅读下一行追加到模式空间后,才可以删除\n字符:

SED -e '/ \ s] + $/{N; d}' 1.HTML

有一件事我不明白:你打算删除<br>和下一行吗?如果是这样,上面的代码是正确的。

rush正确命名您的代码无法正常工作的原因;这个版本做你想要的。

sed -i '/<br \/>\s*$/{N;s/<br \/>\s*//}' 1.html