Garfields的gravatar头像
Garfields 2015-11-18 15:15:49

一个基于Jsoup的java工具包,通配爬取,特别方便,支持任意导出

一个基于Jsoup的java工具包,通配爬取,特别方便,支持任意导出

不用开发,直接使用。

支持伪造头,伪造Cookie等

可以导出文件

可以使用div 页面元素就能爬取内容

导入Eclipse直接用

[+]com.pga.*

    [-]crawler.*      //爬虫处理方法

    [-]Mycrawler.*    //爬虫的调用接口

    [-]utils.*        //爬虫工具类

     

[+]crawler类

 [-]内部方法,无法直接使用

  

[+]Mycrawler类

    [-]Crawler_text 爬虫测试类  JSOUP

       [-] Crawler(String path,String gz)  //Path为URL列表  gz为规则

            [*]Path:TxT文本存放路径:每行一个URL

            [*]Gz:  Jsoup规则,以键值对存储。 格式:k,v #code# k,v

                    例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]

            [*]DESC:此类为测试类,不具备保存输出功能!

                    

    [-]Crawler_funtion_run类 JSOUP

        [-] Crawler(String path,String gz) 

            [*]比第一个Crawler_text.Crawler 多了自动添加SESSION功能.

             

    [-]Crawler_counterfeit_run类 JSOUP

        [-] Crawler(String path,String gz,String heads, String input)

            [*]DESC:多参数+伪造爬虫

            [*]Path:URL列表文件路径。(每行一个URL)

            [*]Gz:  JSOUP爬取规则     格式:k,v #code# k,v...  | 例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]。

            [*]Heads: 伪造的请求头。 格式:k,v #head# k,v...  | 例子: COOKIE,huid1qU2Lki2s2f6LpzmjTO4GBLLYiSOUDM #head# Host,www.baidu.com。

            [*]Input: 文件输出目录。保存爬取内容  | 例如: c://admin.txt

         

        [-]Crawler_save(String path,String gz,String heads, String input,String dominput)

            [*]DESC:伪造参数爬虫 生成爬取内容文件 和 生成元数据文件

            [*]DESC:多参数+伪造爬虫

            [*]Path:URL列表文件路径。(每行一个URL)

            [*]Gz:  JSOUP爬取规则     格式:k,v #code# k,v...  | 例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]。

            [*]Heads: 伪造的请求头。 格式:k,v #head# k,v...  | 例子: COOKIE,huid1qU2Lki2s2f6LpzmjTO4GBLLYiSOUDM #head# Host,www.baidu.com。

            [*]Input: 文件输出目录。保存爬取内容  | 例如: c://admin.txt

            [*]dominput: 网站源码全部保存起来,并在网页头中写入网站源爬取地址。 请指定生成目录,指定前,需要新创建目录,爬虫将在目录中以时间为单位,自动进行生成。

             

    [-]Crawler_Regular_run类  非JSOUP

        [-]GetEmail(String urls,String Ecode)

        [-]GetEmail_Save(String urls,String path,String Ecode)

            [*]DESC:获取指定页面的邮箱地址(测试是否能抓取)

            [*]urls:URL地址

            [*]Ecode:指定编码

            [*]Path:输出文件  如:D:\un.txt  必须加后缀

         

        [-]Crawler(String path,String regular,String Ecode)

            [*]DESC:爬取多个网站 并提取内容

            [*]Path: URL列表文件  如:D:\urllist.txt

            [*]regular: 正则表达式 如:"\\w+@\\w+(\\.\\w+)+"

            [*]Ecode:编码

         

        [-]Crawler_Save(String path,String regular,String input,String Ecode)

            [*]DESC:爬取多个网站 并提取内容 保存内容

            [*]Path: URL列表文件  如:D:\urllist.txt

            [*]regular: 正则表达式 如:"\\w+@\\w+(\\.\\w+)+"

            [*]Ecode:编码

            [*]Input:输出文件路径 如:D:\\data.txt

         

        [-]GETDOM(String importfile,String Ecode,String path)

            [*]DESC:下载源数据

            [*]importfile: URL列表文件  d:\\listurl.txt

            [*]Ecode:编码

            [*]path:指定目录  如:D://爬虫文件//

         

[+]utils类

    [-]Crawler_utils_createfile 文件创建工具

        [-]makeTxt(String FilePath, String node)

            [*]FilePath:文件输出(D://data.txt)

            [*]Node:写入或者追加写入的内容

         

    [-]Crawler_utils_DateUtils 生成时间字符串

        [-]GetYYYYMMDD()

        [-]GetYYYYMMDDHHMMSS()

        [-]GetHHMMSS

        [-]GetDiy(String time_formate) 自定义时间格式 "HHMMSS"

         

    [-]Crawler_utils_determine URL相关判断

        [-]Url(String address) 判断是否为URL  返回值:boolean

        [-]isIn(String substring, String[] source) 判断字符串是否在数组中  返回值:boolean

        [-]Numbuter(String Numbuter) 判断是否为数字 返回值:boolean

@author puguoan  www.puguoan.cn  qq344892053


打赏

文件名:JARText.zip,文件大小:1737.463K 下载
最代码最近下载分享源代码列表最近下载
212600  LV7 2022年9月6日
刘卫国  LV6 2021年12月1日
Sean_admin  LV7 2021年4月23日
liangge2115  LV27 2020年10月24日
senint  LV6 2020年5月14日
wei112233  LV15 2020年2月2日
zdjljty  LV9 2019年12月13日
1602177575  LV14 2019年11月25日
newhaijun  LV15 2019年11月14日
付晨雨  LV6 2019年9月10日
最代码最近浏览分享源代码列表最近浏览
java小书童  LV18 1月29日
雨中纸鹤  LV1 2023年12月6日
212600  LV7 2022年9月6日
寒江雪2017  LV10 2022年7月14日
好的好的  LV8 2022年7月7日
夜上清元  LV8 2022年5月4日
ranting520 2022年4月26日
暂无贡献等级
lzxzuidaima  LV5 2022年2月12日
刘卫国  LV6 2021年12月1日
admin1021  LV6 2021年10月20日
顶部 客服 微信二维码 底部
>扫描二维码关注最代码为好友扫描二维码关注最代码为好友