在java代码中的HTML解析异常org.xml.sax.SAXParseException

问题描述:

我想通过DOM解析器读取一个.html文件,但它在解析时给我下面的异常。在java代码中的HTML解析异常org.xml.sax.SAXParseException

[Fatal Error] form3.html:559:133: The element type "font" must be terminated by the matching end-tag "</font>". 
org.xml.sax.SAXParseException; systemId: file:/home/puja/Dnyaneshwar/WCD_14_02_17/FileConverter/resources/form3.html; lineNumber: 559; columnNumber: 133; The element type "font" must be terminated by the matching end-tag "</font>". 
    at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(DOMParser.java:257) 
    at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:347) 
    at javax.xml.parsers.DocumentBuilder.parse(DocumentBuilder.java:205) 
    at DomConverter.main(DomConverter.java:25) 
+1

错误很明显你有一个打开的''标签没有关闭''试图修复它 –

+0

其实,我通过Libre办公室将doc文件转换为HTML。在这里,我通过手动编辑文件解决了上述问题,但该文件非常大。那么我们可以禁用这种检查吗? – Dnyanesh

您不使用XML解析器来解析HTML文档,甚至没有解析xhtml文档。

您可以使用像jsoup这样的html解析器。