当前位置:网站首页 > Java基础 > 正文

java的爬虫(java爬虫步骤)

package com.chao.crawler;

import java.util.ArrayList;

import java.util.HashSet;

import java.util.List;

import java.util.Set;

import com.chao.util.ListUtil;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.pipeline.ConsolePipeline;

import us.codecraft.webmagic.processor.PageProcessor;

public class PageProcesserProduct implements PageProcessor {

// private Site site = null;

//

// public PageProcesser(String domain, String startUrl) {

//

// site = Site.me().setDomain(domain).addStartUrl(startUrl);

//

// }

//调试用

private Site site = Site.me().setDomain("http://www.babysittersnow.com")

.addStartUrl("http://www.babysittersnow.com.au/babysitters/search");

@Override

public void process(Page page) {

//System.out.println(page.getUrl());

String Title= page.getHtml().xpath("//div[@class='profile-panel-main']/h1").toString().replaceAll("<[^>]*>", "");;

page.putField("Title",Title);

String Info=page.getHtml().xpath("//div[@class='profile-panel-details']").toString().replaceAll("<[^>]*>", "");;

page.putField("Info",Info);

String Review=page.getHtml().xpath("//div[@class='review']/p").toString();

page.putField("Review",Review);

String Introduction=page.getHtml().xpath("//div[@id='profile-tab-introduction']").toString().replaceAll("<[^>]*>", "");;

page.putField("Introduction",Introduction);

String Details=page.getHtml().xpath("//div[@id='profile-tab-details']").toString().replaceAll("<[^>]*>", "");;

page.putField("Details",Details);

String Insights=page.getHtml().xpath("//div[@id='profile-tab-insights']").toString().replaceAll("<[^>]*>", "");;

page.putField("Insights",Insights);

System.out.println("商品筛选完毕,准备执行存储");

// page.putField("author", page.getHtml().$("div.Resume").toString());

// page.putField("info", page.getHtml().xpath("//p[@class='profile-panel-details']/p/label/text()").toString());

Product product = new Product();

product.setTitle(Title);

product.setInfo(Info);

product.setReview(Review);

product.setIntroduction(Introduction);

product.setDetails(Details);

product.setInsights(Insights);

page.putField("product", product);

System.out.println("----------------------------------------------------");

}

@Override

public Site getSite() {

return site;

}

public static void main(String[] args) {

Spider.create(new PageProcesserProduct())

.pipeline(new ConsolePipeline()).thread(10).run();

}

到此这篇java的爬虫(java爬虫步骤)的文章就 介绍到这了,更多相关内容请继续浏览下面的相关 推荐文章,希望大家都能在 编程的领域有一番成就!

版权声明


相关文章:

  • java自学app(Java自学难吗)2025-10-07 18:09:09
  • java中字符串转int(java字符转int类型)2025-10-07 18:09:09
  • java教学视频网站(java讲课视频)2025-10-07 18:09:09
  • java在线教学(java 在线教育)2025-10-07 18:09:09
  • java教学视频网站(java教学视频哪个好)2025-10-07 18:09:09
  • Json字符串转数组(json字符串转数组 java)2025-10-07 18:09:09
  • java面试题库及答案(java 面试题库)2025-10-07 18:09:09
  • 华为odjava面试题(华为odjava机试题)2025-10-07 18:09:09
  • java教学视频网站(java的教学视频教程下载)2025-10-07 18:09:09
  • list转成string字符串(list转成string字符串 java)2025-10-07 18:09:09
  • 全屏图片