从网页获取了HTML响应后,如何处理呢?
1. jsoup:Java HTML Parser
jsoup是一个用于处理真实(real-world)HTML的Java库。它提供了一个非常方便的API来获取url,提取和操作数据,使用HTML5的DOM方法和CSS选择器。
jsoup实现了WHATWG HTML5规范,并将HTML解析为与现代浏览器相同的DOM。
- 从URL、文件或字符串中抓取和解析HTML
- 使用DOM遍历或CSS选择器查找和提取数据
- 操作HTML元素、属性和文本
- 根据安全列表清除用户提交的内容,以防止XSS攻击
- 输出HTML整洁
jsoup被设计用来处理在野外发现的所有种类的HTML;从原始和验证,到无效的标签汤;Jsoup将创建一个合理的解析树。
2. Example
获取维基百科主页,将其解析为DOM,并从In the news部分选择标题到元素列表中(在线示例,完整源代码):
1 | Document doc = Jsoup.connect("https://en.wikipedia.org/").get(); |
3. Open Source
jsoup是一个开放源码项目,它使用自由的MIT许可证发行。源代码可以在GitHub上找到。