在解析HTML文本内容时保留<br>标签

问题描述：

我有一个小问题。
我想用PHP解析一个简单的HTML文档。下面是简单的HTML：在解析HTML文本内容时保留<br>标签

<html> 
     <body> 
      <table> 
        <tr> 
          <td>Colombo <br> Coucou</td> 
          <td>30</td> 
          <td>Sunny</td> 
        </tr> 
        <tr> 
          <td>Hambantota</td> 
          <td>33</td> 
          <td>Sunny</td> 
        </tr> 

      </table>  
     </body> 
</html>

，这是我的PHP代码：

$dom = new DOMDocument(); 

$html = $dom->loadHTMLFile("test.html"); 

$dom->preserveWhiteSpace = false; 

$tables = $dom->getElementsByTagName('table'); 


$rows = $tables->item(0)->getElementsByTagName('tr'); 


foreach ($rows as $row) 
{ 

    $cols = $row->getElementsByTagName('td'); 

    echo $cols->item(0)->nodeValue.'<br />'; 
    echo $cols->item(1)->nodeValue.'<br />'; 
    echo $cols->item(2)->nodeValue; 
}

但正如你所看到的，我有一个<br>标签，我需要它，但我的PHP代码运行时，它会删除这个标签。
任何人都可以解释我如何保持它？

答

我会建议你使用XPath的帮助下捕捉到表格单元格的值：

$values = array(); 

$xpath = new DOMXPath($dom); 

foreach($xpath->query('//tr') as $row) { 
    $row_values = array(); 

    foreach($xpath->query('td', $row) as $cell) { 
     $row_values[] = innerHTML($cell); 
    } 

    $values[] = $row_values; 
}

另外，我有同样的问题，因为你与<br>标签被剥夺了获取内容为他们自己被认为是空的节点的原因;不幸的是，它们不会被换行符（\n）自动替换;

所以我所做的就是设计我自己的innerHTML函数，在许多项目中证明了它的价值。我在这里与大家分享：

function innerHTML(DOMElement $element, $trim = true, $decode = true) { 
    $innerHTML = ''; 

    foreach ($element->childNodes as $node) { 
     $temp_container = new DOMDocument(); 
     $temp_container->appendChild($temp_container->importNode($node, true)); 

     $innerHTML .= ($trim ? trim($temp_container->saveHTML()) : $temp_container->saveHTML()); 
    } 

    return ($decode ? html_entity_decode($innerHTML) : $innerHTML); 
}

首先感谢您的关注和您的代码。我有一个错误的代码： “可捕捉致命错误：传递给innerHTML（） $ dom = new DOMDocument（）; \t \t \t $ dom-> loadHTMLFile（“test.html”）; \t \t \t \t \t $ values = array（）; \t \t \t $ xpath = new DOMXPath（$ dom）; \t \t \t的foreach（$ xpath->查询（ '// TR'）为$行）{ \t \t \t $ row_values =阵列（）; \t \t \t的foreach（$ xpath->查询（ '// TR'）为$细胞）{ \t \t \t $ row_values [] = innerHTML的（$细胞>的nodeValue）; \t \t \t \t \t \t} \t \t \t $值[] = $ row_values; \t \t \t}' – 2013-02-18 15:22:30

对代码进行了更正，内部查询出错了，对不起=） – silkfire 2013-02-18 15:25:31

对不起，我对此不太满意，但是我仍然有这个错误。 :( – 2013-02-18 15:35:11

在解析HTML文本内容时保留标签

相关推荐

在解析HTML文本内容时保留
标签