设为首页 收藏本站
查看: 2590|回复: 0

[经验分享] apache的HttpClient方法的使用

[复制链接]

尚未签到

发表于 2017-1-6 10:00:56 | 显示全部楼层 |阅读模式
使用apache的HttpClient实现网页抓取功能
/**
* 根据url抓取字符串 返回字符串
*
* @param urlstr
*            String
* @return String
*/
public static String snatch(String urlstr, String encode) {

String rs = "";
// Create an instance of HttpClient.
HttpClient client = new HttpClient();
// Create a method instance.
GetMethod method = new GetMethod(urlstr);
// Provide custom retry handler is necessary
method.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
new DefaultHttpMethodRetryHandler(0, false));
// method.getParams().setParameter(HttpMethodParams.USER_AGENT,
// "Mozilla/4.0 (compatible; MSIE 6.0; Windows 2000)");
try {
// Execute the method.
int statusCode = client.executeMethod(method);
if (statusCode != HttpStatus.SC_OK) {
System.err.println("Method failed: " + statusCode);
System.err.println("Method failed: " + method.getStatusLine());
}else{
// Read the response body.
byte[] responseBody = method.getResponseBody();
// Deal with the response.
// Use caution: ensure correct character encoding and is not binary
// data
if (!method.getResponseCharSet().trim().equalsIgnoreCase(
"ISO-8859-1")) {
rs = new String(responseBody, method.getResponseCharSet());
} else {
if (encode != null && encode.length() > 0)
rs = new String(responseBody, encode);
else
rs = new String(responseBody, "gb2312");
}
}
} catch (HttpException e) {
System.err.println("Fatal protocol violation: " + e.getMessage());
e.printStackTrace();
} catch (IOException e) {
System.err.println("Fatal transport error: " + e.getMessage());
System.err.println("=============" + urlstr);
e.printStackTrace();
}catch(java.lang.IllegalArgumentException e){
System.err.println("报错的url是:"+urlstr);
e.printStackTrace();
} finally {
// Release the connection.
method.releaseConnection();
}
return rs;
}

以上代码就是一个简单的HttpClient远程抓取页面源码了,不过记得要
import org.apache.commons.httpclient.*;
还有就是中间注释掉的代码
// method.getParams().setParameter(HttpMethodParams.USER_AGENT,
// "Mozilla/4.0 (compatible; MSIE 6.0; Windows 2000)");
大家要注意点,因为有些网站是设置的是防止爬虫形式抓取的,所以如果有些时候你抓取不到的时候你需要加上这段代码了!
直接调用snatch("url地址一定要加http://",“编码”)方法

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-324566-1-1.html 上篇帖子: 数据源--org.apache.commons.dbcp.BasicDataSource 下篇帖子: 用Apache Commons Email简化邮件发送
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表