从网站提取元数据
答
如果您知道结构,可以使用DOM从网页中提取数据。
答
如果你有一个字符串的HTML,那么你可以使用:
var str = '<html></html>'; // your html text goes here
var div = document.createElement('div');
div.innerHTML = str;
var dom = div.firstChild; // dom is the object you want,
// you can manipulate it using standard dom methods
或者,使用jQuery。 jQuery是一个库,可以帮助您更轻松地操作和访问HTML元素。首先,将其添加到文档的头部:
<script type="text/javascript" src="https://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js"></script>
这是对jQuery库的引用。那么,这样做:
var foo = $("<html>Your html here</html>");
或者,如果你的HTML是一个变量(例如STR),你可以这样做:
var foo = $(str);
然后,你可以操纵在许多不同的方式解析FOO。例如,要删除所有段落元素,你可以使用
foo.remove('p');
或者,要删除使用id =“酒吧”,使用段落元素:
foo.remove('p.bar');
一旦你完成你的修改,你可以使用以下格式获取新的html文本:
foo.html();
为什么你的html在一个字符串中?它不是当前页面的html吗?
谢谢,但目前我有一个字符串中的整个html源代码,有反正它来处理呢?因为结构可能会有所不同,元属性标记是常数。 – simplified 2011-06-16 18:32:31