阅读HTML表格数据/ html标签
问题描述:
我有大约50页的html,每个页面有大约100多行数据,有各种CSS样式,我想要读取html文件并获取数据,就像姓名,年龄,班级,老师。并将其存储在数据库中,但我无法读取html标签阅读HTML表格数据/ html标签
e.g 空间我一直在这里显示它
<table class="table_100">
<tr>
<td class="col_1">
<span class="txt_student">Gauri Singh</span><br>
<span class="txt_bold">13</span><br>
<span class="txt_bold">VIII</span><br>
</td>
<td class="col_2">
<span class="txt_teacher">Praveen M</span><br>
<span class="txt_bold">3494</span><br>
<span class="txt_bold">3Star</span><br>
</td>
<td class="col_3">
</td>
</tr>
</table>
答
对于.NET,你可以尝试Html Agility Pack
你可以 “转换” HTML页面的XML文档与此:
HtmlDocument doc = new HtmlDocument();
doc.Load(@"..\..\your_page.htm");
doc.OptionOutputAsXml = true;
doc.Save("your_page.xml");
然后就是解析XML文档。
+0
我都尝试使它xml然后阅读它 – Moksha 2010-05-23 21:39:10
这似乎是一个很好的例子,说明如何不使用数据表,如果你想要做的是获得跨度的东西。嵌套表会给你更直接有意义的标记。 – 2010-05-23 00:01:19
也可以是有用的http://*.com/questions/2397659/create-a-dictionary-or-list-from-stringhtml-tag-included-in-c – loviji 2010-05-23 00:05:26