设为首页 收藏本站
查看: 558|回复: 0

[经验分享] 采集练习(一) php 获得全国的小学(数据来自腾讯朋友网)

[复制链接]

尚未签到

发表于 2015-8-24 13:08:47 | 显示全部楼层 |阅读模式
  

    注:发现腾讯朋友网已经改版,部分参数需要自己获得修改 !!!
  年前有个需求获得某省的小学数据,分析了下朋友网的小学学校发现可以获得相关数据。
  如获得  湖南省郴州市宜章县的全部小学  
  发现网页请求的地址是
  http://api.pengyou.com/json.php?cb=__i_3&mod=school&act=selector&schooltype=6&country=0&province=43&district=431022&g_tk=1964222334
  这里返回的是一个json  

document.domain = "pengyou.com"; __i_3({"code":0,"subcode":0,"......});
  
  解析后发现里面是  宜章县的全部小学。。。
  分析了下参数
  schooltype=6  表示小学
  country  = 0 表示 中国
  province = 43 表示湖南省
  district   = 431022 表示宜章县
  g_tk      = 1964222334  不清楚 估计是随机数
  有了这几个参数  就可以自己获得相应的 小学了。。
  获得 湖南省郴州市 的所有县: http://api.pengyou.com/json.php?cb=__i_6&mod=getdistrict&cityid=4310&district_obj_name=_distinct&g_tk=271354436  
  要获得  学校必须获得province 、district 的值  但我没发现相应的网络请求获得相应的 province 、district    于是到页面上查找 发现 province 的值来自
  http://cn.qzonestyle.gtimg.cn/campus/js/locations.js
  需要解决的问题:
  1、 获得locations.js 里的 省份 城市 id 值 时 需要 用到正则表达式
  2、 根据  市 id 获得县 id
  3、file_get_contents  获得 相关学校时 需要带上 相应的 user_agent  并配置 否则获不到数据。
  以下是相应的代码  



header("Content-type:text/html; charset=utf-8");
set_time_limit(0);
$js_data = @file_get_contents("locations.js");
preg_match_all("/;location_array\[([0-9]{2})?\]='([^']+)?'/",$js_data,$locations);
$datas = array();
if(array_filter($locations[1]) && array_filter($locations[2])){
foreach($locations[1] as $key => $val){
preg_match_all("/;sublocation_array\[".$val."\]\[([0-9]{4,})\]='([^']+)?'/", $js_data, $matches);
$datas[$val]['name']= $locations[2][$key];
foreach($matches[1] as $k =>$v){
$datas[$val]['sub'][$v] = $matches[2][$k];
}
}
}
function getDatas($url)
{
$getPageSetting = array(
'http' => array(
'timeout' => 5,
'method' => 'GET',
'protocol_version'=>'1.1',
'header' =>
"User-Agent: Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8A293 Safari/6531.22.7\r\n" .
//"Referer: http://......php\r\n".浏览器访问过的,上一个页面的整个url地址字符串,直接在地址栏输入url访问此页面则没有此项
"Host: isdspeed.qq.com\r\n" .//这项可以省略,如果这里设置错误会报错:failed to open stream: HTTP request failed!
"Accept-Language: zh-cn,zh;q=0.5\r\n" .
"Accept-Encoding: gzip, deflate\r\n" .
"Accept-Charset: GBK,utf-8;q=0.7,*;q=0.3\r\n" .
"Content-Type:application/x-www-form-urlencoded".
"Accept: text/javascript, application/javascript, */*\r\n" .
"Connection: keep-alive\r\n\r\n"
)
);
//$getHtml= file_get_contents($url, FALSE, stream_context_create($getPageSetting));
   // 发现腾讯朋友网已经改版 所以直接用 file_get_contents 获得
    $getHtml = file_get_contents($url);
return $getHtml;   
}
/**
* 创建文件夹
* @param string $path 文件夹路径
*/
function createFolder($path)
{
if (!file_exists($path)) {
createFolder(dirname($path));
mkdir($path, 0777);
}
}
$areas = array();
// 获得相关省市县的小学
foreach ($datas as $pid=>$rows){
foreach($rows as $k=>$v){
if($k =='sub'){
foreach($v as $cid =>$city){
$cityUrl = "http://api.pengyou.com/json.php?mod=getdistrict&cityid=".$cid."&district_obj_name=_distinct&g_tk=1523170442";
$result = getDatas($cityUrl);
$districtIds = json_decode($result,true);
$areas[$pid][$cid] = $districtIds['result']['district_arr'];
$district_arr= $districtIds['result']['district_arr'];
foreach($district_arr as $did =>$district){
$url = "http://api.pengyou.com/json.php?&mod=school&act=selector&schooltype=6&country=0&province=".$pid."&district=".$did."&g_tk=1523170442";
$schools = getDatas($url);
$schools = json_decode($schools,true);
$school_data = str_replace("·","\r\n",strip_tags($schools['result']));
$dirs = "school/".iconv('utf-8', 'gbk', $rows['name'])."/".iconv('utf-8', 'gbk', $city);
createFolder($dirs);
@file_put_contents($dirs.'/'.iconv('utf-8', 'gbk', $district).'.txt', $school_data);
}
}
}
}
}
echo '<pre>';
print_r($areas);
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-103518-1-1.html 上篇帖子: php开发_多关键字,高亮显示 下篇帖子: PHP环境搭建以及解决wampapache服务启动不了的问题
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表