java爬虫入门教程（java的爬虫）

Java基础来源：网络编辑：小编更新时间：2025-06-29 15:54:04 浏览量：68

本文链接：

title: Java爬虫之JSoup使用教程 date: 2018-12-24 8:00:00 +0800 update: 2018-12-24 8:00:00 +0800 author: me cover: tags:

文章目录

实战获取githubpages的链接，并生成sitemap

JSoup是一个用于处理HTML的Java库，它提供了一个非常方便类似于使用DOM，CSS和jquery的方法的API来提取和操作数据。

jsoup实现WHATWG HTML5规范，并将HTML解析为与现代浏览器相同的DOM。

jsoup旨在处理发现所有格式有差异的HTML; 从原始和验证，到无效的标签; jsoup将创建一个明智的解析树。

能用Jsoup实现什么？

1. org.jsoup.Jsoup类

Jsoup类是任何Jsoup程序的入口点，并将提供从各种来源加载和解析HTML文档的方法。

Jsoup类的一些重要方法如下：

2. org.jsoup.nodes.Document类

该类表示通过Jsoup库加载HTML文档。可以使用此类执行适用于整个HTML文档的操作。

Element类的重要方法可以参见 - 。

3. org.jsoup.nodes.Element类

HTML元素是由标签名称，属性和子节点组成。使用Element类，您可以提取数据，遍历节点和操作HTML。

Element类的重要方法可参见 - 。

安装

使用maven导包，也可以使用jar

加载文档

1. URL加载文档

从URL加载文档，使用方法从URL加载HTML。

2. 从文件加载文档

使用方法从文件加载HTML。

3. 从String加载文档

使用方法从字符串加载HTML。

提取数据

使用DOM方法导航文档

元素提供了一系列类似DOM的方法来查找元素，并提取和操作它们的数据。DOM getter是上下文的：在父文档上调用，他们在文档下找到匹配的元素; 他们在一个子元素上调用了那个孩子下面的元素。通过这种方式，您可以了解所需的数据。

寻找元素

处理元素数据

操纵HTML和文本

使用selector-syntax查找元素

使用CSS或类似jquery的选择器语法来查找或操作元素。

使用和方法

jsoup元素支持（或）之类的选择器语法来查找匹配元素，从而允许非常强大和健壮的查询。该方法在一个可用，或在。它是上下文的，因此您可以通过从特定元素中进行选择或通过链接选择调用来进行过滤。 Select返回一个Elements列表（as ），它提供了一系列提取和操作结果的方法。

从元素中提取属性，文本和HTML

在解析文档并找到一些元素之后，您将需要获取这些元素中的数据。

您有一个包含相对URL的HTML文档，您需要将其解析为绝对URL

在HTML元素中，URL通常是相对于文档的locat编写的IOn : . 当您使用该方法获取href属性时，它将按照源HTML中的指定返回。如果要获取绝对URL，则会有一个属性键前缀，该前缀将导致根据文档的基URI解析属性值（原始位置）ION）：对于此用例，在解析文档时指定基URI很重要。如果您不想使用前缀，还有一个方法可以执行相同的操作，但可以通过自然属性键进行访问。

示例输出

步骤

核心代码

入口类main.java

link.java 实现爬取链接

siteMapXML.java 实现构造sitemap

采用dom4j 类库，估计还会写一个关于dom4j的文章