骑着猪猪去逛街
2013-11-25 15:11:43
【猪猪-后端】WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。
如果要使用注解方式实现,也是支持的。
@TargetUrl("http://my.oschina.net/flashsword/blog/\\d+") public class OschinaBlog { @ExtractBy("//title") private String title; @ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css) private String content; @ExtractBy(value = "//div[@class='BlogTags']/a/text()", multi = true) private List<String> tags; public static void main(String[] args) { OOSpider.create( Site.me().addStartUrl("http://my.oschina.net/flashsword/blog"), new ConsolePageModelPipeline(), OschinaBlog.class).run(); } }
由最代码官方编辑于2013-12-31 22:08:41
猜你喜欢
- java开源音视频转码框架jave分享
- java获取svn信息的开源框架
- java开源分布式任务调度框架xxl-job支持oracle实例
- java开源cms管理系统框架-PublicCMS后台管理系统
- Java网络爬虫(蜘蛛)源码
- java开源图片框架Thumbnailator对图片各种处理的方法(可做到对原图片压缩仅改变大小)
- java开源pdf框架pdfbox实现pdf文档后台打印,多个pdf文件合并
- java简单自定义图片爬虫实例
- java开源Comet框架pushlet将消息从服务器端推送到客户端的Demo
- Java开源博客系统框架B3log Solo源码下载
- java web快速开源开发框架RoubSite-admin
- 一个java开源小博客框架blog4j,基于注解、反射实现的小框架
请下载代码后再发表评论
文件名:WebMagic.rar,文件大小:6063.709K
下载
- /
- /WebMagic
- /WebMagic/.classpath
- /WebMagic/.mymetadata
- /WebMagic/.project
- /WebMagic/.settings
- /WebMagic/.settings/.jsdtscope
- /WebMagic/.settings/org.eclipse.jdt.core.prefs
- /WebMagic/.settings/org.eclipse.wst.common.component
- /WebMagic/.settings/org.eclipse.wst.common.project.facet.core.xml
- /WebMagic/.settings/org.eclipse.wst.jsdt.ui.superType.container
- /WebMagic/.settings/org.eclipse.wst.jsdt.ui.superType.name
- /WebMagic/WebRoot
- /WebMagic/WebRoot/index.jsp
- /WebMagic/src
- /WebMagic/src/com
- /WebMagic/src/com/spider
- /WebMagic/src/com/spider/test
- /WebMagic/src/com/spider
- /WebMagic/src/com
- /WebMagic
相关代码
最近下载
最近浏览
半夏bx LV14
10月20日
kevinkg LV12
2023年12月14日
zealze LV3
2023年7月31日
jane1986 LV1
2023年6月2日
dixiu000 LV4
2023年5月19日
lironggang LV38
2023年4月25日
ls2008 LV15
2023年4月7日
zouge520 LV3
2023年3月28日
tdfgjbi0de LV6
2023年3月15日
默滅3216 LV3
2023年2月28日