copy自:http://www.ayulong.cn/types/2 视频教程:https://www.bilibili.com/video/BV1cE411u7RA?p=1
网络爬虫也叫网络机器人, 是一种可以按照一定规则自动采集互联网信息的程序或脚本, 爬虫一般分为数据采集, 处理, 储存三个部分, 从若干初始网页的URL开始抓取网页, 不断获取页面上的URL放入队列直到满足系统的一定条件停止
1. 可以实现私人的搜索引擎
2. 大数据时代获取数据源, 作数据分析
3. 可以更好地进行搜索引擎优化 (SEO)
4. 有利于就业, 爬虫工程师需求量大, 发展空间广
JDK1.8
IntelliJ IDEA
DEA自带的Maven
导入 pom.xml
创建 slf4j 日志配置文件
在 resources 目录下创建 log4j.properties 文件, 并添加以下配置
最简单的爬虫程序
在java的 cn.ayulong.crawler.test 中创建 CrawlerFirst类
注意: 此方法只能抓取 http 协议的页面, 如果想抓取 https 的页面, 可以参考
HttpClient抓取https协议页面
HttpClient: Java 的 HTTP 协议客户端, 用于抓取网页数据
Get请求带参数
使用 HttpClient 发送不带参数的 post 请求与 发送不带参数的 get 请求类似, 只是 HttpGet 要改为 HttpPost, 所以只记录带参数的 post 请求方式
请求参数配置
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jsoup的主要功能如下:
先在pom中导入依赖, 搭建开发环境
Jsoup可以直接输入url,它会发起请求并获取数据,封装为Document对象
PS:虽然使用Jsoup可以替代HttpClient直接发起请求解析数据,但是往往不会这样用,因为实际的开发过程中,需要使用到多线程,连接池,代理等等方式,而jsoup对这些的支持并不是很好,所以我们一般把jsoup仅仅作为Html解析工具使用
到此这篇java的爬虫(java爬虫入门)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/jjc/46763.html