jsoup简介

2021-12-11

从网页获取了HTML响应后，如何处理呢？

1. jsoup：Java HTML Parser

jsoup是一个用于处理真实（real-world）HTML的Java库。它提供了一个非常方便的API来获取url，提取和操作数据，使用HTML5的DOM方法和CSS选择器。

jsoup实现了WHATWG HTML5规范，并将HTML解析为与现代浏览器相同的DOM。

从URL、文件或字符串中抓取和解析HTML
使用DOM遍历或CSS选择器查找和提取数据
操作HTML元素、属性和文本
根据安全列表清除用户提交的内容，以防止XSS攻击
输出HTML整洁

jsoup被设计用来处理在野外发现的所有种类的HTML；从原始和验证，到无效的标签汤；Jsoup将创建一个合理的解析树。

2. Example

获取维基百科主页，将其解析为DOM，并从In the news部分选择标题到元素列表中(在线示例，完整源代码):

Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
  log("%s\n\t%s", 
    headline.attr("title"), headline.absUrl("href"));
}

3. Open Source

jsoup是一个开放源码项目，它使用自由的MIT许可证发行。源代码可以在GitHub上找到。

参考

https://jsoup.org/