阅读HTML表格数据/ html标签

问题描述:

我有大约50页的html,每个页面有大约100多行数据,有各种CSS样式,我想要读取html文件并获取数据,就像姓名,年龄,班级,老师。并将其存储在数据库中,但我无法读取html标签阅读HTML表格数据/ html标签

e.g 空间我一直在这里显示它

<table class="table_100"> 
    <tr> 
     <td class="col_1"> 
      <span class="txt_student">Gauri Singh</span><br> 
      <span class="txt_bold">13</span><br> 
      <span class="txt_bold">VIII</span><br> 
     </td> 
     <td class="col_2"> 
      <span class="txt_teacher">Praveen M</span><br> 
      <span class="txt_bold">3494</span><br> 
      <span class="txt_bold">3Star</span><br> 
     </td> 
     <td class="col_3"> 
     </td> 
    </tr> 
</table> 
+0

这似乎是一个很好的例子,说明如何不使用数据表,如果你想要做的是获得跨度的东西。嵌套表会给你更直接有意义的标记。 – 2010-05-23 00:01:19

+0

也可以是有用的http://*.com/questions/2397659/create-a-dictionary-or-list-from-stringhtml-tag-included-in-c – loviji 2010-05-23 00:05:26

对于.NET,你可以尝试Html Agility Pack
你可以 “转换” HTML页面的XML文档与此:

 HtmlDocument doc = new HtmlDocument(); 
     doc.Load(@"..\..\your_page.htm"); 
     doc.OptionOutputAsXml = true; 
     doc.Save("your_page.xml"); 

然后就是解析XML文档。

+0

我都尝试使它xml然后阅读它 – Moksha 2010-05-23 21:39:10

使用Html Agility Pack。它提供了一个直观和强大的.net API来解析和用Html来播放。