jsoup 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
jsoup 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
jsoup 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 Web应用开发HTML解析器
开源组织
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2010-01-31

软件简介

jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM、CSS 以及类似于 JQuery 的操作方法来取出和操作数据。

本站使用 jsoup 来解析 HTML。

jsoup的主要功能如下:

  1. 从一个URL,文件或字符串中解析HTML;

  2. 使用DOM或CSS选择器来查找、取出数据;

  3. 可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

示例代码:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=jsoup-1.6.3

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(33) 发布并加入讨论🔥
发表了资讯
07/11 14:09

jsoup 1.18.1 发布,Java HTML 解析器

jsoup 1.18.1 现已发布,新的流解析器提供了混合 DOM + SAX 事件驱动的解析接口、请求进度跟踪和许多其他改进。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。 下载地址:https://jsoup.org/download 具体更新内容包括: 改进 Stream Parser:StreamParser对输入进行渐进式解析。对于 URL 请求,可通过Connection.Response.streamP...

1
2
发表了资讯
2023/12/30 10:14

jsoup 1.17.2 发布,Java HTML 解析器

jsoup 1.17.2 现已发布。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。 下载地址:https://jsoup.org/download 具体更新内容包括: 改进 Attribute object accessors:添加Element.attribute(String)和Attributes.attribute(String)以便更简单地获取Attribute对象。2069 Attribute source tracking:如果 source tracking 已打开,...

0
2
发表了资讯
2023/11/27 14:11

jsoup 1.17.1 发布,Java HTML 解析器

jsoup 1.17.1 现已发布,支持 request-level 身份验证、属性名称和值源范围、stream( ) 可迭代支持以及大量其他改进和错误修复。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。 下载地址:https://jsoup.org/download 具体更新内容包括: 改进 Request-Level Authentication:在 Jsoup.connect() 中添加了对 request-level 身份验证...

2
1
发表了资讯
2023/10/21 10:19

jsoup 1.16.2 发布,Java HTML 解析器

jsoup 1.16.2 现已发布。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。 下载地址:https://jsoup.org/download 具体更新内容包括: Improvements 通过添加基于成本的查询规划器,优化了复杂 CSS 选择器的性能。评估器按其相对执行成本排序,并按成本从低到高的顺序执行。这通过确保在更复杂的评估(例如属性正则表达式或使用 :has...

1
2
发表了资讯
2023/05/06 07:31

jsoup 1.16.1 发布,Java HTML 解析器

jsoup 1.16.1 现已发布。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。 下载地址:https://jsoup.org/download 具体更新内容包括: Improvements 在Jsoup.connect(String url)中,原生支持在路径或查询字符串中包含 Unicode 字符的 URL,而无需由调用者进行转义。#1914 在没有父节点的节点上调用Node.remove()现在是不可行的,会出...

3
3
发表了资讯
2023/02/21 07:02

jsoup 1.15.4 发布,Java HTML 解析器

jsoup 1.15.4 现已发布,其中包括了一些改进,尤其是在 pretty-printing HTML 时;以及一些错误的修正。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。 下载地址:https://jsoup.org/download 具体更新内容包括: Improvements 添加了转义 CSS 选择器(tag、ID、classes)以匹配不遵循常规 CSS 语法的元素的功能。例如,要按类名<...

0
3
发表了资讯
2022/08/25 07:02

jsoup 1.15.3 发布,Java HTML 解析器

jsoup 1.15.3 现已发布,包括针对潜在 XSS 攻击的安全修复,以及其他改进,包括更具描述性的验证错误消息。jsoup 是一个用于处理 real-world HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API 用于提取和操作数据。 下载地址:https://jsoup.org/download 具体更新内容包括: 安全 修复了如果SafeList.preserveRelativeLinks启用,jsoup cleaner 可能会错误地清理精心制作的 XSS attempts 的...

2
10
发表了资讯
2020/03/03 07:27

Java HTML 解析器 jsoup 发布 1.13.1,解析速度显著提升

jsoup 1.13.1 已发布,值得关注的改进包括:解析速度较 1.12.x 有了显著提升、选择器增加新特性、修复 Mark Invalid 出现异常的问题,以及许多其他的改进。 jsoup 是最好的 Java HTML 解析器(红薯认证),它使用最好的 HTML5 DOM 方法和 CSS 选择器,为提取和处理数据提供了非常方便的 API。感受一下代码: Document doc = Jsoup.connect("https://en.wikipedia.org/").get(); log(doc.title()); Elements newsHeadlines ...

10
28
发表了资讯
2019/05/13 10:40

jsoup 1.12.1 发布,最好的 Java HTML 解析器,没有之一

jsoup 1.12.1 发布了,该版本包含众多可用性的提升,提升了解析速度和内存效率,修复了不少 bug 。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 下载地址:Download 完整的改进记录如下: Changes Change: removed deprecated method to disable TLS cert checking in Connection.validateTLSCertificates...

13
56
发表了资讯
2018/04/16 07:50

jsoup 1.11.3 发布,Java 的 HTML 解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; jsoup是基于MIT协议发布的,可放心使用于商业项目。 此次更新内容: 改进 CDATA sections are now treated as whitespace pre...

13
29
发表了资讯
2017/11/20 14:29

jsoup 1.11.2 发布,Java 的 HTML 解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML; 使用DOM或CSS选择器来查找、取出数据; 可操作HTML元素、属性、文本; jsoup是基于MIT协议发布的,可放心使用于商业项目。 此次更新内容: 改进 Added a new pseudo selector :matchText, which al...

5
41
发表了资讯
2017/11/06 09:17

jsoup 1.11.1 发布,最强的 Java HTML 解析器

jsoup 1.11.1 发布了,该版本降低了 30% 的 DOM 内存使用,增加了流式网络 HTML 解析,更快的 HTML 生成以及大量的改进和 bug 修复,下载地址:https://jsoup.org/download 改进 When loading content from a URL or a file, the content is now parsed as it streams in from the network or disk, rather than being fully buffered before parsing. This substantially reduces memory consumption & large garbage objects...

14
33
发表了资讯
2017/06/12 12:01

jsoup 1.10.3 发布,Java 的 HTML 解析器

jsoup 1.10.3 发布了,该版本带来了更好的 CSS 选择器性能,Jsoup.Connection 改进和其他 bug 修复。 详情包括: Improvements Added Elements.eachText() and Elements.eachAttr(), which return a list of an Element's text or attribute values, respectively. This makes it simpler to for example get a list of each URL on a page: List<String> urls = doc.select("a").eachAttr("abs:href""); Improved selector va...

11
26
发表了资讯
2017/01/05 09:46

jsoup 1.10.2 发布,Java 的 HTML 解析器

jsoup 1.10.2 发布了,该版本带来了更快的启动时间,扩展 DOM 树的遍历,提升了 HTTP 兼容性以及修复了一些 bug。 详情包括: Improvements Improved startup time, particularly on Android, by reducing garbage generation and CPU execution time when loading the HTML entity files. About 1.72x faster in this area. Added Element.is(query) to check if an element matches this CSS query. Added new methods to El...

18
27
发表了资讯
2016/10/24 00:00

Jsoup 1.10.1 发布,Java 的 HTML 解析器

Jsoup 1.10.1 发布了,Jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。更新内容如下: 改进 Improved support for extended HTML entities, including supplemental characters and multiple character references. Also reduced memory consumption of the entity tables. Added support for *|E wildcard n...

7
44
发表了资讯
2016/05/18 00:00

jsoup 1.9.2 发布,Java 的 HTML 解析器

jsoup 1.9.2 发布,改进内容包括: 改进: 1. In XML documents, detect the charset from the XML prolog -- <?xml encoding="UTF-8"?> Bug 修复 1. Fixed an issue where tag names that contained non-ascii characters but started with an ascii character would cause the parser to get stuck in an infinite loop. 2. Fixed an issue where API created XML documents would have an incorrect prolog. 3. Fixed an iss...

10
59
发表了资讯
2016/04/18 00:00

jsoup 1.9.1 发布,HTML 解析器

jsoup 1.9.1 发布。 更新日志: 改进: Added support for HTTP and SOCKS request proxies, specifiable per connection. See Connection.proxy(String, int). Added support for sending plain HTTP request bodies in POST and PUT requests, with Connection.requestBody(String). Added support in Jsoup.Connect() for HEAD, OPTIONS, and TRACE. Added support for HTTP 307 Temporary Redirect (replays posts, if appl...

9
45
发表了资讯
2015/08/03 00:00

jsoup 1.8.3 发布,HTML 解析器

jsoup 1.8.3 发布,此版本主要改进有:解析大型 HTML 文件的一些性能提升;抓取 XML 文档时,自动切换到 XML 解析器;重要 bug 修复。 更新内容: 改进 Performance improvement on parsing larger HTML pages. On Android KitKat, around 1.7x times faster. On Android Lollipop, ~ 1.3x faster. Improvements largely from re-ordering the HtmlTreeBuilder methods based on analysis of various websites; also from furt...

31
77
发表了资讯
2015/04/15 00:00

jsoup 1.8.2 发布,HTML 解析器

jsoup 1.8.2 发布,此版本提升了 Android,HTML 解析,HTML 生成,查询等方面的性能。同时添加了文件上传,W3C DOM 互操作等功能,还有其他的改进和 bug 修复。 更新内容 改进 提升 Android 解析 HTML 的性能 提升 Android HTML 序列化的性能 加快 Andorid 上字符集编码速度 提升 Andorid 上 selector 类的性能 支持文件上传 Add a meta-charset element to documents when setting the character set Added ability to disabl...

22
72
发表了资讯
2014/09/28 00:00

jsoup 1.8.1 发布,极大的性能提升!

jsoup 1.8.1 发布啦! jsoup 1.8.1 显著提升了文本和树序列化的性能;可以选择 HTML 或者 XML 输出;还有大量的功能改进和 bug 修复。此版本现已提供下载。 更新内容如下: 改进 可以选择 HTML 或者 XML 输出,默认是 HTML Element.text() 性能改进 Element.html() 性能改进 缩短文件读的时间,同时也改进了文件解析器,提升大概 10% 的速度 添加 Element.cssSelector() Tightened the scope of what characters are escaped i...

38
94
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
33 评论
1K 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部