package com.spider.test;

import java.util.List;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.processor.PageProcessor;

public class Test implements PageProcessor{

	private Site site = Site.me().setDomain("my.oschina.net").addStartUrl("http://my.oschina.net/flashsword/blog");

	public void process(Page page) {
		List<String> links = page.getHtml().links().regex("http://my\\.oschina\\.net/flashsword/blog/\\d+").all();
		page.addTargetRequests(links);
		page.putField("title", page.getHtml().xpath("//div[@class='BlogEntity']/div[@class='BlogTitle']/h1").toString());
		page.putField("content", page.getHtml().$("div.content").toString());
		page.putField("tags", page.getHtml().xpath("//div[@class='BlogTags']/a/text()").all());
	}

	public Site getSite() {
		return site;

	}

	public static void main(String[] args) {
		Spider.create(new Test()).pipeline(new ConsolePipeline()).run();
	}
}
最近下载更多
人工智能4708  LV11 2022年3月24日
亚索King  LV5 2021年7月16日
放开那个难海纸  LV22 2021年4月26日
abdkfksdkf  LV16 2021年3月21日
企鹅不会飞  LV2 2021年3月16日
sccs1984  LV15 2021年3月15日
binbinbbb  LV2 2021年1月14日
tanyc2008  LV6 2020年9月3日
yuanfen  LV16 2020年8月26日
mustDo  LV14 2020年7月30日
最近浏览更多
半夏bx  LV14 10月20日
kevinkg  LV12 2023年12月14日
zealze  LV3 2023年7月31日
jane1986  LV1 2023年6月2日
dixiu000  LV4 2023年5月19日
lironggang  LV38 2023年4月25日
ls2008  LV15 2023年4月7日
zouge520  LV3 2023年3月28日
tdfgjbi0de  LV6 2023年3月15日
默滅3216  LV3 2023年2月28日
顶部 客服 微信二维码 底部
>扫描二维码关注最代码为好友扫描二维码关注最代码为好友