无法正确解析HTML格式化

问题描述:

这里是我的node.js程序:无法正确解析HTML格式化

var jsdom = require('jsdom'); 

var site = 'http://www.lefigaro.fr/international/2011/08/09/01003-20110809ARTFIG00389-un-premier-mort-dans-les-emeutes-en-grande-bretagne.php'; 
var jquery = 'http://ajax.googleapis.com/ajax/libs/jquery/1.6.2/jquery.min.js'; 
jsdom.env(site, [jquery], function(error, window) { 
    console.log(error); 
    console.log(window.$); 
}); 

和输出:

/home/matt/Desktop/nodejs/node_modules/jsdom/lib/jsdom.js:245 
     window.document.documentElement.appendChild(script); 
             ^
TypeError: Cannot call method 'appendChild' of null 
    at /home/matt/Desktop/nodejs/node_modules/jsdom/lib/jsdom.js:245:41 
    at Array.forEach (native) 
    at /home/matt/Desktop/nodejs/node_modules/jsdom/lib/jsdom.js:230:22 
    at [object Object].callback (/home/matt/Desktop/nodejs/node_modules/jsdom/lib/jsdom.js:289:17) 
    at [object Object].<anonymous> (/home/matt/Desktop/nodejs/node_modules/request/main.js:294:21) 
    at [object Object].emit (events.js:64:17) 
    at IncomingMessage.<anonymous> (/home/matt/Desktop/nodejs/node_modules/request/main.js:281:54) 
    at IncomingMessage.emit (events.js:81:20) 
    at HTTPParser.onMessageComplete (http.js:133:23) 
    at Socket.ondata (http.js:1232:22) 

我认为这是行不通的,因为从源页面的HTML是不正确的格式。真的是因为这个原因,如果有的话,是否有办法解决它?

感谢

+0

这个错误告诉你'window.document.documentElement'为空。但是,发布的代码不会显示其定义的位置。你可以调查或发布相关的代码? –

+0

请发布一些重现此错误的示例HTML。实际上不可能修复你无法重现的错误。 – gilly3

+0

你使用的是什么版本的jsdom? – tmpvar

那么它似乎jsdom到现在仅支持DOM Level 1和一些常用的浏览器提供的方法,但documentElement是从DOM Level 2规范。

编号:

  1. http://jsdom.org/documentation
  2. https://developer.mozilla.org/En/DOM/Document.documentElement
+1

jsdom.org在很长一段时间内还没有更新,我的appologies。我们目前正在100%遵守level1和level2(xml/html/events) – tmpvar

+1

它看起来像jsdom.org已被黑客攻击或接管 - 我看到很多关于脱发和NLP的“文章” – jcollum