一个基于Jsoup的java工具包,通配爬取,特别方便,支持任意导出

不用开发，直接使用。

支持伪造头，伪造Cookie等

可以导出文件

可以使用div 页面元素就能爬取内容

导入Eclipse直接用

[+]com.pga.*

    [-]crawler.*      //爬虫处理方法

    [-]Mycrawler.*    //爬虫的调用接口

    [-]utils.*        //爬虫工具类



[+]crawler类

[-]内部方法，无法直接使用



[+]Mycrawler类

    [-]Crawler_text 爬虫测试类  JSOUP

       [-] Crawler(String path,String gz)  //Path为URL列表  gz为规则

            [*]Path:TxT文本存放路径：每行一个URL

            [*]Gz:  Jsoup规则,以键值对存储。格式：k,v #code# k,v

                    例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]

            [*]DESC:此类为测试类,不具备保存输出功能！



    [-]Crawler_funtion_run类 JSOUP

        [-] Crawler(String path,String gz)

            [*]比第一个Crawler_text.Crawler 多了自动添加SESSION功能.



    [-]Crawler_counterfeit_run类 JSOUP

        [-] Crawler(String path,String gz,String heads, String input)

            [*]DESC:多参数+伪造爬虫

            [*]Path:URL列表文件路径。(每行一个URL)

            [*]Gz:  JSOUP爬取规则     格式:k,v #code# k,v...  | 例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]。

            [*]Heads: 伪造的请求头。格式:k,v #head# k,v...  | 例子: COOKIE,huid1qU2Lki2s2f6LpzmjTO4GBLLYiSOUDM #head# Host,www.baidu.com。

            [*]Input: 文件输出目录。保存爬取内容  | 例如: c://admin.txt



        [-]Crawler_save(String path,String gz,String heads, String input,String dominput)

            [*]DESC:伪造参数爬虫生成爬取内容文件和生成元数据文件

            [*]DESC:多参数+伪造爬虫

            [*]Path:URL列表文件路径。(每行一个URL)

            [*]Gz:  JSOUP爬取规则     格式:k,v #code# k,v...  | 例子:标题,h2[id=app-name] span #code# 简介,div[class=breif]。

            [*]Heads: 伪造的请求头。格式:k,v #head# k,v...  | 例子: COOKIE,huid1qU2Lki2s2f6LpzmjTO4GBLLYiSOUDM #head# Host,www.baidu.com。

            [*]Input: 文件输出目录。保存爬取内容  | 例如: c://admin.txt

            [*]dominput: 网站源码全部保存起来，并在网页头中写入网站源爬取地址。请指定生成目录，指定前，需要新创建目录，爬虫将在目录中以时间为单位，自动进行生成。



    [-]Crawler_Regular_run类  非JSOUP

        [-]GetEmail(String urls,String Ecode)

        [-]GetEmail_Save(String urls,String path,String Ecode)

            [*]DESC:获取指定页面的邮箱地址(测试是否能抓取)

            [*]urls：URL地址

            [*]Ecode：指定编码

            [*]Path：输出文件  如：D:\un.txt  必须加后缀



        [-]Crawler(String path,String regular,String Ecode)

            [*]DESC：爬取多个网站并提取内容

            [*]Path: URL列表文件  如:D:\urllist.txt

            [*]regular: 正则表达式如："\\w+@\\w+(\\.\\w+)+"

            [*]Ecode:编码



        [-]Crawler_Save(String path,String regular,String input,String Ecode)

            [*]DESC：爬取多个网站并提取内容保存内容

            [*]Path: URL列表文件  如:D:\urllist.txt

            [*]regular: 正则表达式如："\\w+@\\w+(\\.\\w+)+"

            [*]Ecode:编码

            [*]Input:输出文件路径如:D:\\data.txt



        [-]GETDOM(String importfile,String Ecode,String path)

            [*]DESC:下载源数据

            [*]importfile: URL列表文件  d:\\listurl.txt

            [*]Ecode:编码

            [*]path:指定目录  如:D://爬虫文件//



[+]utils类

    [-]Crawler_utils_createfile 文件创建工具

        [-]makeTxt(String FilePath, String node)

            [*]FilePath:文件输出(D://data.txt)

            [*]Node:写入或者追加写入的内容



    [-]Crawler_utils_DateUtils 生成时间字符串

        [-]GetYYYYMMDD()

        [-]GetYYYYMMDDHHMMSS()

        [-]GetHHMMSS

        [-]GetDiy(String time_formate) 自定义时间格式 "HHMMSS"



    [-]Crawler_utils_determine URL相关判断

        [-]Url(String address) 判断是否为URL  返回值：boolean

        [-]isIn(String substring, String[] source) 判断字符串是否在数组中  返回值：boolean

        [-]Numbuter(String Numbuter) 判断是否为数字返回值：boolean

@author puguoan www.puguoan.cn qq344892053