简单的实现就是定向抓取,通过java原生类HttpURLConnection即可实现,如:java抓取html网页数据内容demo
也可以通过java开源框架jsoup实现:使用jsoup抓取指定网站地址的class的html内容
还可以通过java爬虫框架webmagic实现:WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看。
请参考其他的java抓取代码:java爬虫抓取网页数据
/**
* 获取网页内容
* @param url 链接
* @param code 编码格式 GB2312/UTF-8
* @return
*/
public static String getContent(String url, String code) {
HttpURLConnection conn = null;
String tmp = "";
StringBuffer sb = null;
BufferedReader sread = null;
try {
conn = (HttpURLConnection) new URL(url).openConnection();
conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0; H010818)");
sb = new StringBuffer("");
sread = new BufferedReader(new InputStreamReader(conn.getInputStream(), code));
while ((tmp = sread.readLine()) != null) {
sb.append(tmp);
}
} catch (Exception e) {
log.error(e.getMessage(), e);
} finally {
try {
if (sread != null) {
sread.close();
}
} catch (IOException e) {
log.error(e.getMessage(), e);
}
if (conn != null)
conn.disconnect();
}
return sb.toString();
}
用JSoup解析就可以了,用JSoup速度很快,而且选择器很强大,可以用一个表达式抓取你网页上的任何数据。
到如Jsoup.jar包,通过url获取Document对象。
public static Document getDocument(String url) {
Document doc = null;
try {
doc = Jsoup.connect(url).data("jquery", "java")
.userAgent("Mozilla").cookie("auth", "token")
.timeout(100000).get();
} catch (IOException e) {
e.printStackTrace();
}
return doc;
}
最后通过Document的select函数来选择。
- 等 最代码怎么获取牛币啊?
- 完 谁来告诉我最代码上线的时间,答对者给5牛币,先来先得
- 等 牛友们,大家好,你们做程序员多久了?现在还好吗?
- 完 在微信打开的页面里进行app下载
- 等 最代码2014年欢乐聚声会
- 完 mysql如何查询表数据并且对3个字段降序的SQL?
- 完 最代码牛币机制改革
- 完 成功的在bae上使用了自定义运行环境 jetty+nginx的组合,大家对jetty+nginx优化有哪些心得?
- 完 进来分享一下各位牛牛是如何加入最代码大家庭的?
- 等 为什么java BufferedImage类处理大图直接抛出内存溢出的异常?
- 等 最代码是否开发手机app客户端?
- 完 java程序员学习哪些java的技术?java有哪些框架?都能做哪方面的开发?
- 等 php格式网页文件怎么运行?
- 等 Java volatile值获取的问题
- 等 前端vue,拦截了登录后台后,返回的token,requests拦截token,但是发送请求的时候,就出现跨越异常
- 等 大专本科计算机科班怎么找到Java工作?
- 等 eclipse怎么把三个java swing游戏项目合成一个项目?
- 完 伙伴们,大家都有什么好的解压方式么,分享一下~
- 完 三四线城市,6、7k,运维工作,索然无味,想去辞职上培训,各位牛牛有什么建议嘛
- 等 jsp页面输入中文变成问号
- 等 JPA在线上运行一段时间后报错Caused by: java.lang.IncompatibleClassChangeError: null
- 等 PHP 这个规则用preg_match_all怎么写
- 等 大佬们,有没有知道Alfresco如何配置LDAP登录呢?
- 等 php的install目录是框架带的吗?