如何使用Ruby和Nokogiri解析LI/DL/DD标签结构?
问题描述:
我想解析包含有序列表以及DL/DD标签的html。目标是创建一个xml结构,将每个标记的内容逐项添加一些属性。在最后效果平坦的结构(期望的输出将显示在问题的最后)。如何使用Ruby和Nokogiri解析LI/DL/DD标签结构?
这里是存储在一个文件的HTML的例子(包含在test.html中在我的代码):从HTML(
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>Test Structure</title>
</head>
<body>
<ol><li>Item 1 - Level 1
<dl><dd>Item 1.1 - Level 2
</dd><dd>Item 1.2 - Level 2
</dd></dl>
</li><li>Item 2 - Level 1
<dl><dd>Item 2.1 - Level 2
<dl><dd>Item 2.1.1 - Level 3
</dd><dd>Item 2.1.2 - Level 3
<dl><dd>Item 2.1.2.1 - Level 4
</dd><dd>Item 2.1.2.2 - Level 4
</dd></dl>
</dd></dl>
</dd><dd>Item 2.2 - Level 2
<dl><dd>Item 2.2.1 - Level 3
</dd><dd>Item 2.2.2 - Level 3
<dl><dd>Item 2.2.2.1 - Level 4
</dd><dd>Item 2.2.2.2 - Level 4
</dd></dl>
</dd><dd>Item 2.2.3 - Level 3
<dl><dd>Item 2.2.3.1 - Level 4
</dd><dd>Item 2.2.3.2 - Level 4
</dd></dl>
</dd><dd>Item 2.2.4 - Level 3
</dd></dl>
</dd></dl>
</li><li>Item 3 - Level 1
<dl><dd>Item 3.1 - Level 2
</dd><dd>Item 3.2 - Level 2
</dd></dl>
</li></ol>
</body>
</html>
输出这里显示你没有看到,你会在看到压痕浏览器):
- Item 1 - Level 1
- Item 1.1 - Level 2
- Item 1.2 - Level 2
- Item 2 - Level 1
- Item 2.1 - Level 2
- Item 2.1.1 - Level 3
- Item 2.1.2 - Level 3
- Item 2.1.2.1 - Level 4
- Item 2.1.2.2 - Level 4
- Item 2.2 - Level 2
- Item 2.2.1 - Level 3
- Item 2.2.2 - Level 3
- Item 2.2.2.1 - Level 4
- Item 2.2.2.2 - Level 4
- Item 2.2.3 - Level 3
- Item 2.2.3.1 - Level 4
- Item 2.2.3.2 - Level 4
- Item 2.2.4 - Level 3
- Item 3 - Level 1
- Item 3.1 - Level 2
- Item 3.2 - Level 2
所需的输出:
<job>
<req level='1'>Item 1 - Level 1</req>
<req level='1.1'>Item 1.1 - Level 2</req>
<req level='1.2'>Item 1.2 - Level 2</req>
<req level='2'>Item 2 - Level 1</req>
<req level='2.1'>Item 2.1 - Level 2</req>
<req level='2.1.1'>Item 2.1.1 - Level 3</req>
<req level='2.1.2'>Item 2.1.2 - Level 3</req>
<req level='2.1.2.1'>Item 2.1.2.1 - Level 4</req>
<req level='2.1.2.2'>Item 2.1.2.2 - Level 4</req>
<req level='2.2'>Item 2.2 - Level 2</req>
<req level='2.2.1'>Item 2.2.1 - Level 3</req>
<req level='2.2.2'>Item 2.2.2 - Level 3</req>
<req level='2.2.2.1'>Item 2.2.2.1 - Level 4</req>
<req level='2.2.2.2'>Item 2.2.2.2 - Level 4</req>
<req level='2.2.3'>Item 2.2.3 - Level 3</req>
<req level='2.2.3.1'>Item 2.2.3.1 - Level 4</req>
<req level='2.2.3.2'>Item 2.2.3.2 - Level 4</req>
<req level='2.2.4'>Item 2.2.4 - Level 3</req>
<req level='3'>Item 3 - Level 1</req>
<req level='3.1'>Item 3.1 - Level 2</req>
<req level='3.2'>Item 3.2 - Level 2</req>
</job>
请注意,我们要来回派生层次结构m遍历结构,而不是从每个LI和DD属性的实际内容中进行遍历......我的示例的内容列出了层次结构(1,1.1,1.2 ...),但在实际数据中我们不会看到这些内容。 “level”属性应该反映结构的遍历。
我对Ruby和Nokogiri都很陌生,但这里是我尝试阅读HTML(还没有创建XML)。我坚持分离出LI节点和内容。我已经使用.each
,children.each
试过,等:
require 'rubygems'
require 'open-uri'
require 'nokogiri'
url = "test.html"
doc = Nokogiri::HTML(open(url))
line = "1"
doc.css("ol[1]").children.each do |n|
puts line + n.content.to_s
line.succ!
n.children do |c|
puts line + c.content.to_s
line.succ!
end
end
答
可以使用node_name
方法来确定什么是文字的,什么是一个孩子,这里说下吐出来的是HTML标签名称的样本函数OL:
def traverse(node, indent = 0)
node.children.each do |child|
next if child.node_name == "text"
puts " "*indent + child.node_name
traverse(child, indent+1)
end
end
traverse doc.css("ol[1]")
(我是上面跳过文本节点是标签的文本内容)
哇,这是快的CAM ... THX!这给我提供了node_name列表,并且实际上正确地反映了层次结构。当我从'child.node_name'更改为'child.text'时,它并不总是给我一个单一的值。 – BCinAustin 2011-05-18 20:03:57
@BCinAustin:'text'方法递归地抓取所有孩子的'text'。你只需要在具有node_name'text'的子节点上调用'text'。 (所以,不要用'next'跳过文本节点,在那时打印出来) – cam 2011-05-18 21:17:54
完美!这正是我所错过的。再次感谢Cam! – BCinAustin 2011-05-18 21:34:38