学习xpath，使用lxml+xpath提取内容。

什么是 XPath?
XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。
下面列出了最有用的路径表达式：
学习xpath，使用lxml+xpath提取内容。
参考链接：用lxml解析HTML
使用xpath提取丁香园论坛的回复内容。丁香园直通点晕厥待查——请教各位同仁
用户名称：tree.xpath(’//div[@class=“auth”]/a/text()’)
回复内容：tree.xpath(’//td[@class=“postbody”]’) 因为回复内容中有换行等标签，所以需要用string()来获取数据。
Xpath中text()，string()，data()的区别如下：
text()仅仅返回所指元素的文本内容。
string()函数会得到所指元素的所有节点文本内容，这些文本讲会被拼接成一个字符串。
data()大多数时候，data()函数和string()函数通用，而且不建议经常使用data()函数，有数据表明，该函数会影响XPath的性能。
整体代码如下：
学习xpath，使用lxml+xpath提取内容。
运行结果如下：

学习xpath，使用lxml+xpath提取内容。

相关推荐