使用简单的HTML DOM解析器获取html标签内的数据:

问题描述:

我想获取html标签中的所有信息并将它们显示在表格中。我正在使用简单的HTML DOM解析器。我尝试了下面的代码,但我只得到最后一列(列:总计)。我如何从其他列中获取数据?使用简单的HTML DOM解析器获取html标签内的数据:

foreach($html->find('tr[class="tblRowShade"]') as $div) { 
    $key = ''; 
    $val = ''; 

    foreach($div->find('*') as $node) { 
     if ($node->tag=='td'){ 
      $key = $node->plaintext; 
     } 
    } 

    $ret[$key] = $val; 
} 

这里是我的表

<tr class="tblRowShade"> 
     <td width="12%"><strong>Project</strong></td> 
     <td width="38%">&nbsp;</td> 
     <td width="25%"><strong>Recipient</strong></td> 
     <td width="14%"><strong>Municipality/City</strong></td> 
     <td width="11%" nowrap="nowrap" class="td_right"><strong>Implementing Unit</strong></td> 
     <td width="11%" nowrap="nowrap" class="td_right"><strong>Release Date</strong></td> 
     <td align="right" width="11%" class="td_right"><strong>Total</strong></td> 
</tr> 

<tr class="tblRowShade"> 
     <td colspan="2" >Livelihood Programs</td> 
     <td >Basic Espresso and Latte</td> 
     <td nowrap="nowrap"></td> 
     <td >DOLE - TESDA Regional Office IV-A</td> 
     <td nowrap="nowrap">2013-06-11</td> 
     <td align="right" nowrap="nowrap" class="td_right">1,500,000</td> 
</tr> 

为什么你有$div->find('*')代码?您可以尝试使用$div->find('td')。这应该会产生正确的结果。否则,你也可以尝试遍历孩子:foreach($div->children as $node)

假设你要使用第一行作为$键,其余的数据,你可能想改变你的HTML代码,只需在第一行中添加th ,这是你的标题:<tr><th>…</th></tr>。这样,您可以通过$div->find('th')获得密钥。我想使用第一行也是可以的。

正如alamin.ahmed说,这将是更好的搜索td,而不是...

这里有一个工作示例:

$text = ' <tr class="tblRowShade"> 
     <td width="12%"><strong>Project</strong></td> 
     <td width="38%">&nbsp;</td> 
     <td width="25%"><strong>Recipient</strong></td> 
     <td width="14%"><strong>Municipality/City</strong></td> 
     <td width="11%" nowrap="nowrap" class="td_right"><strong>Implementing Unit</strong></td> 
     <td width="11%" nowrap="nowrap" class="td_right"><strong>Release Date</strong></td> 
     <td align="right" width="11%" class="td_right"><strong>Total</strong></td> 
</tr> 

<tr class="tblRowShade"> 
     <td colspan="2" >Livelihood Programs</td> 
     <td >Basic Espresso and Latte</td> 
     <td nowrap="nowrap"></td> 
     <td >DOLE - TESDA Regional Office IV-A</td> 
     <td nowrap="nowrap">2013-06-11</td> 
     <td align="right" nowrap="nowrap" class="td_right">1,500,000</td> 
</tr>'; 

echo "<div>Original Text: <xmp>$text</xmp></div>"; 


//Create a DOM object 
$html = new simple_html_dom(); 
// Load HTML from a string 
$html->load($text); 


// Find all elements 
$rows = $html->find('tr[class="tblRowShade"]'); 


// Find succeeded 
if ($rows) { 

    echo count($rows) . " \$rows found !<br />"; 

    foreach ($rows as $key => $row) { 

     echo "<hr />"; 

     $columns = $row->find('td'); 

     // Find succeeded 
     if ($rows) { 

      echo count($columns) . " \$columns found in \$rows[$key]!<br />"; 

      foreach ($columns as $col) { 

        echo $col->plaintext . " | "; 
       } 
     } 
     else 
      echo " /!\ Find() \$columns failed /!\ "; 
    } 
} 
else 
    echo " /!\ Find() \$rows failed /!\ "; 

这里是上面代码的输出:

enter image description here

你必须知道两行不包含相同数量的列......那么你必须在y我们的计划。