HtmlCleaner使用说明文档

资源描述

《HtmlCleaner使用说明文档》由会员分享，可在线阅读，更多相关《HtmlCleaner使用说明文档（6页珍藏版）》请在金锄头文库上搜索。

1、HtmlCleaner Html 文档解析器HtmlCleaner 是一个开源的 Java 语言的 Html 文档解析器。 HtmlCleaner 能够重新整理 HTML 文档的每个元素并生成结构良好 (Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份 web 浏览器为创文档对象模型所使用的规则。然而，用户可以提供自定义 tag 和规则组来进行过滤和匹配。它被设计的小，快速

2、，灵活而且独立。 HtmlCleaner 也可用在 Java 代码中，当命令行工具或 Ant 任务。解析后编程轻量级文档对象，能够很容易的被转换到 DOM 或者 JDom 标准文档，或者通过各种方式 (压缩，打印 )连续输出 XML。新版本的重要功能更新包括：1.HtmlCleaner 的文档对象模型现在拥有了一些函数，处理节点和属性，所以现在在序列化之前搜索或者编辑是

3、非常容易的。2.提供基本 HtmlCleaner DOM 的 XPath 支持 3.使用 XML 配置温江让创建定制 tag 变得更加容易 4.修复多个 bug 以及 API 改进测试用例：import org.junit.Test;import org.junit.Assert;import org.htmlcleaner.HtmlCleaner;import java.io.IOException;public class HtmlCleanerTest Testpublic void testCleanUncloseTag

4、() throws IOException HtmlCleaner cleaner = new HtmlCleaner(abc);cleaner.setOmitXmlDeclaration(true);cleaner.setOmitHtmlEnvelope(true);cleaner.clean();Assert.assertEquals(abcn, cleaner.getXmlAsString();Testpublic void testCleanUncloseQuotes() throws IOException HtmlCleaner cleaner = new HtmlCleaner(

5、abcn); cleaner.setOmitXmlDeclaration(true);cleaner.setOmitHtmlEnvelope(true);cleaner.clean();Assert.assertEquals(abcnnn, cleaner.getXmlAsString();htmlcleaner 过滤 HTML曾经用 HTMLParser 过滤 HTML，但发现 HTMLParser 有时候对不规范的 HTMl 解析不了，并且不支持 xpath, 后来在 Web-Harvest 开源爬虫网站找到了 HTMLParser，能够帮助我们将 HTML 文档转化为结构化的 XM

6、L 文档。虽然目前已经有了类似这样的工具，但是HtmlCleaner 能够完成几乎所有的 HTML 转换，而且不到 30k，这是他们值得称道的地方。1.HtmlCleaner 的文档对象模型现在拥有了一些函数，处理节点和属性，所以现在在序列化之前搜索或者编辑是非常容易的。 2.提供基本 HtmlCleaner DOM 的 XPath 支持 3. 解析后编程轻量级文档对象，能够很容易的被转换到 DOM 或者 JDom 标准文档，或者通过各种方式(压缩，打印)连续输出 XML。转换完成后，能用 JDOM,dom4j 对文当进行处理Java 代码 1. package com.citgee.web

7、clip; 2. 3. import org.htmlcleaner.*; 4. 5. import .*; 6. import java.io.*; 7. import java.util.*; 8. 9. import org.jdom.*; 10./import org.jdom.output.*; 11.import org.jdom.contrib.helpers.XPathHelper; 12.import org.jdom.filter.Filter; 13.import org.jdom.output.Format; 14.import org.jdom.output.XMLO

8、utputter; 15.import org.jdom.xpath.XPath; 16. 17.public class WebClipUtils 18. 19. public static Document getDocumentByURL(String url,String charset) throws MalformedURLException, IOException 20. HtmlCleaner htmlCleaner = new HtmlCleaner(); 21. CleanerProperties props = htmlCleaner.getProperties();

9、22. TagNode node = htmlCleaner.clean(new URL(url),charset); 23. JDomSerializer jdomSerializer = new JDomSerializer(props,true);24. Document doc = jdomSerializer.createJDom(node); 25. return doc; 26. 27. 28. public static List getElementsByTagName(Document doc,String tagName) 29. List eleList = new A

10、rrayList(); 30. buildList(doc.getRootElement(),tagName,eleList); 31. return eleList; 32. 33. 34. private static void buildList(Element rootEle,String tagName,List eleList) 35. if(rootEle.getName().equals(tagName) 36. eleList.add(rootEle); 37. 38. List list = rootEle.getChildren(); 39. for(Iterator i

11、ter = list.iterator();iter.hasNext();) 40. Element ele = (Element)iter.next(); 41. buildList(ele,tagName,eleList); 42. 43. 44. 45. public static void printElement(Element ele) throws IOException 46. XMLOutputter outputer = new XMLOutputter(); 47. Format format = outputer.getFormat(); 48. format.setE

12、ncoding(GB2312); 49. outputer.setFormat(format); 50. outputer.output(ele, System.out); 51. 52. 53. 54. public static void main(String args) throws Exception 55. HtmlCleaner htmlCleaner = new HtmlCleaner(); 56. 57. CleanerProperties props = htmlCleaner.getProperties(); 58. 59. 60./ TagNode node = htm

13、lCleaner.clean(new URL(http:/); 61. TagNode node = htmlCleaner.clean(new URL(http:/),UTF-8); 62. 63./ XmlSerializer xmlSerializer = new PrettyXmlSerializer(props);64./ StringWriter writer = new StringWriter(); 65./ xmlSerializer.writeXml(node, writer, GB2312); 66./ System.out.println(writer.toString

14、(); 67. 68. JDomSerializer jdomSerializer = new JDomSerializer(props,true);69. Document doc = jdomSerializer.createJDom(node); 70. 71. Element rootEle = doc.getRootElement(); 72. 73. System.out.println(XPathHelper.getPathString(rootEle); 74. final String tagName = div; 75. List list = getElementsByT

15、agName(doc,div); 76. System.out.println(list.size(); 77. Iterator iter = list.iterator(); 78. while (iter.hasNext() 79. Element ele = (Element) iter.next(); 80. System.out.println(); 81. System.out.println(*); 82. System.out.println(XPathHelper.getPathString(ele); 83. System.out.println(*); 84. printElement(ele); 85. 86. 87. 88.

展开阅读全文

HtmlCleaner使用说明文档

最新文档