当前位置:网站首页 > Java基础 > 正文

java的爬虫(java爬虫入门)



copy自:http://www.ayulong.cn/types/2 视频教程:https://www.bilibili.com/video/BV1cE411u7RA?p=1

网络爬虫也叫网络机器人, 是一种可以按照一定规则自动采集互联网信息的程序或脚本, 爬虫一般分为数据采集, 处理, 储存三个部分, 从若干初始网页的URL开始抓取网页, 不断获取页面上的URL放入队列直到满足系统的一定条件停止

1. 可以实现私人的搜索引擎
2. 大数据时代获取数据源, 作数据分析
3. 可以更好地进行搜索引擎优化 (SEO)
4. 有利于就业, 爬虫工程师需求量大, 发展空间广

JDK1.8

IntelliJ IDEA

DEA自带的Maven

导入 pom.xml

创建 slf4j 日志配置文件

在 resources 目录下创建 log4j.properties 文件, 并添加以下配置

最简单的爬虫程序

在java的 cn.ayulong.crawler.test 中创建 CrawlerFirst类

注意: 此方法只能抓取 http 协议的页面, 如果想抓取 https 的页面, 可以参考

HttpClient抓取https协议页面

HttpClient: Java 的 HTTP 协议客户端, 用于抓取网页数据

Get请求带参数

使用 HttpClient 发送不带参数的 post 请求与 发送不带参数的 get 请求类似, 只是 HttpGet 要改为 HttpPost, 所以只记录带参数的 post 请求方式

请求参数配置

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

  1. 一个URL,文件或字符串中解析HTML;
  2. 使用DOM或CSS选择器来查找、取出数据;
  3. 可操作HTML元素、属性、文本;( Jsoup一般用于解析爬到的数据并存储, 很少用到操作 )

先在pom中导入依赖, 搭建开发环境

Jsoup可以直接输入url,它会发起请求并获取数据,封装为Document对象

PS:虽然使用Jsoup可以替代HttpClient直接发起请求解析数据,但是往往不会这样用,因为实际的开发过程中,需要使用到多线程,连接池,代理等等方式,而jsoup对这些的支持并不是很好,所以我们一般把jsoup仅仅作为Html解析工具使用

到此这篇java的爬虫(java爬虫入门)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就! 
  

                            

版权声明


相关文章:

  • java中字符串转int(java 字符串转int)2026-04-19 17:45:04
  • java程序网站(java项目网站)2026-04-19 17:45:04
  • java调用dll动态库隐藏(java生成dll动态库)2026-04-19 17:45:04
  • java面试八股文是哪些(java面试八股文汇总)2026-04-19 17:45:04
  • java课程收费网站(免费java培训课程)2026-04-19 17:45:04
  • java天气预报接口(java获取天气)2026-04-19 17:45:04
  • 广度优先搜索java实现(广度优先搜索java实现方法)2026-04-19 17:45:04
  • hook框架是什么(java hook框架)2026-04-19 17:45:04
  • pytorch模型部署到java(pytorch模型部署到springbootweb)2026-04-19 17:45:04
  • 单向链表反转java实现(单向链表反转java实现头插法)2026-04-19 17:45:04
  • 全屏图片