一个基于Jsoup的java工具包,通配爬取,特别方便,支持任意导出
不用开发,直接使用。
支持伪造头,伪造Cookie等
可以导出文件
可以使用div 页面元素就能爬取内容
导入Eclipse直接用
[+]com.pga.*
[-]crawler.* //爬虫处理方法
[-]Mycrawler.* //爬虫的调用接口
[-]utils.* //爬虫工具类
[+]crawler类
[-]内部方法,无法直接使用
[+]Mycrawler类
[-]Crawler_text 爬虫测试类 JSOUP
[-] Crawler(String path,String gz) //Path为URL列表 gz为规则
[*]Path:TxT文本存放路径:每行一个URL
[*]Gz: Jsoup规则,以键值对存储。 格式:k,v #code# k,v
例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]
[*]DESC:此类为测试类,不具备保存输出功能!
[-]Crawler_funtion_run类 JSOUP
[-] Crawler(String path,String gz)
[*]比第一个Crawler_text.Crawler 多了自动添加SESSION功能.
[-]Crawler_counterfeit_run类 JSOUP
[-] Crawler(String path,String gz,String heads, String input)
[*]DESC:多参数+伪造爬虫
[*]Path:URL列表文件路径。(每行一个URL)
[*]Gz: JSOUP爬取规则 格式:k,v #code# k,v... | 例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]。
[*]Heads: 伪造的请求头。 格式:k,v #head# k,v... | 例子: COOKIE,huid1qU2Lki2s2f6LpzmjTO4GBLLYiSOUDM #head# Host,www.baidu.com。
[*]Input: 文件输出目录。保存爬取内容 | 例如: c://admin.txt
[-]Crawler_save(String path,String gz,String heads, String input,String dominput)
[*]DESC:伪造参数爬虫 生成爬取内容文件 和 生成元数据文件
[*]DESC:多参数+伪造爬虫
[*]Path:URL列表文件路径。(每行一个URL)
[*]Gz: JSOUP爬取规则 格式:k,v #code# k,v... | 例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]。
[*]Heads: 伪造的请求头。 格式:k,v #head# k,v... | 例子: COOKIE,huid1qU2Lki2s2f6LpzmjTO4GBLLYiSOUDM #head# Host,www.baidu.com。
[*]Input: 文件输出目录。保存爬取内容 | 例如: c://admin.txt
[*]dominput: 网站源码全部保存起来,并在网页头中写入网站源爬取地址。 请指定生成目录,指定前,需要新创建目录,爬虫将在目录中以时间为单位,自动进行生成。
[-]Crawler_Regular_run类 非JSOUP
[-]GetEmail(String urls,String Ecode)
[-]GetEmail_Save(String urls,String path,String Ecode)
[*]DESC:获取指定页面的邮箱地址(测试是否能抓取)
[*]urls:URL地址
[*]Ecode:指定编码
[*]Path:输出文件 如:D:\un.txt 必须加后缀
[-]Crawler(String path,String regular,String Ecode)
[*]DESC:爬取多个网站 并提取内容
[*]Path: URL列表文件 如:D:\urllist.txt
[*]regular: 正则表达式 如:"\\w+@\\w+(\\.\\w+)+"
[*]Ecode:编码
[-]Crawler_Save(String path,String regular,String input,String Ecode)
[*]DESC:爬取多个网站 并提取内容 保存内容
[*]Path: URL列表文件 如:D:\urllist.txt
[*]regular: 正则表达式 如:"\\w+@\\w+(\\.\\w+)+"
[*]Ecode:编码
[*]Input:输出文件路径 如:D:\\data.txt
[-]GETDOM(String importfile,String Ecode,String path)
[*]DESC:下载源数据
[*]importfile: URL列表文件 d:\\listurl.txt
[*]Ecode:编码
[*]path:指定目录 如:D://爬虫文件//
[+]utils类
[-]Crawler_utils_createfile 文件创建工具
[-]makeTxt(String FilePath, String node)
[*]FilePath:文件输出(D://data.txt)
[*]Node:写入或者追加写入的内容
[-]Crawler_utils_DateUtils 生成时间字符串
[-]GetYYYYMMDD()
[-]GetYYYYMMDDHHMMSS()
[-]GetHHMMSS
[-]GetDiy(String time_formate) 自定义时间格式 "HHMMSS"
[-]Crawler_utils_determine URL相关判断
[-]Url(String address) 判断是否为URL 返回值:boolean
[-]isIn(String substring, String[] source) 判断字符串是否在数组中 返回值:boolean
[-]Numbuter(String Numbuter) 判断是否为数字 返回值:boolean
@author puguoan www.puguoan.cn qq344892053
猜你喜欢
- /
- /bin
- /bin/.README
- /bin/Crawler_Regular_example.class
- /bin/Crawler_counterfeit_example.class
- /bin/Crawler_funtion_example.class
- /bin/Mutex.class
- /bin/Mutx.class
- /bin/PrintRunnable.class
- /bin/cw_crawlermain.txt
- /data
- /data/cw_crawlermain.txt
- /bin
- jsoup简单的图片抓取demo
- 原 java通过jsoup爬取最代码牛币兑换活动
- 原 jsoup多线程爬取第一ppt网站所有ppt详情以及下载地址
- 原 httpClient与jsoup的结合使用实现网页抓取数据的简单测试
- java jsoup解析迅雷会员账号分享网并提前迅雷VIP帐号与密码
- 使用jsoup抓取指定网站地址的class的html内容
- 原精 java使用jsoup实现网页抓取---案例智联招聘求职信息抓取
- 原 一个基于HttpClient+Jsoup的最简单最容易的JAVA版爬虫工具--即下即用(案例:爬取豆瓣网数据)
- java网络爬虫jsoup和commons-httpclient使用入门教程实例源码
- 原证 java脚本一键下载 英雄联盟 LOL 高清 英雄图片
- 原证 java通过jsoup框架抓取网易云音乐歌手信息数据