设为首页 收藏本站
查看: 1205|回复: 0

[经验分享] PHP多进程编程(三)多进程抓取网页的演示

[复制链接]

尚未签到

发表于 2015-8-23 10:57:47 | 显示全部楼层 |阅读模式
  要理解这个部分的代码,请阅读:
  用 Socket 和 Pcntl 实现一个多进程服务器(一)
  PHP多进程编程(一)
  PHP多进程编程(二)管道通信
  
  我们知道,从父进程到子经常的数据传递相对比较容易一些,但是从子进程传递到父进程就比较的困难。
  有很多办法实现进程交互,在php中比较方便的是 管道通信。当然,还可以通过 socket_pair 进行通信。
  
  首先是服务器为了应对每一个请求要做的事情(发送一个url 序列,url序列用\t 分割。而结束标记是 \n)
  

DSC0000.gif DSC0001.gif 代码

function clientHandle($msgsock, $obj)
{
    $nbuf = '';
    socket_set_block($msgsock);
    do {
        if (false === ($buf = @socket_read($msgsock, 2048, PHP_NORMAL_READ))) {
            $obj->error("socket_read() failed: reason: " . socket_strerror(socket_last_error($msgsock)));
            break;
        }
        $nbuf .= $buf;
        if (substr($nbuf, -1) != "\n") {
            continue;
        }
        $nbuf = trim($nbuf);
        if ($nbuf == 'quit') {
            break;
        }
        if ($nbuf == 'shutdown') {
            break;
        }
        $url = explode("\t", $nbuf);
        $nbuf = '';
        $talkback = serialize(read_ntitle($url));
        socket_write($msgsock, $talkback, strlen($talkback));
        debug("write to the client\n");
        break;
    } while (true);
}  
  上面代码比较关键的一个部分是 read_ntitle,这个函数实现多线程的读取标题。
  
  代码如下:(为每一个url fork 一个线程,然后打开管道 ,读取到的标题写入到管道里面去,主线程一直的在读取管道数据,直到所有的数据读取完毕,最后删除管道)

代码

function read_ntitle($arr)
{
    $pipe = new Pipe("multi-read");
    foreach ($arr as $k => $item)
    {
        $pids[$k] = pcntl_fork();
        if(!$pids[$k])
        {
             $pipe->open_write();
             $pid = posix_getpid();
             $content = base64_encode(read_title($item));
             $pipe->write("$k,$content\n");
             $pipe->close_write();
             debug("$k: write success!\n");
             exit;
        }
    }
    debug("read begin!\n");
    $data = $pipe->read_all();
    debug("read end!\n");
    $pipe->rm_pipe();
    return parse_data($data);
}
parse_data  代码如下,非常的简单,就不说了。
function parse_data($data)
{
    $data = explode("\n", $data);
    $new = array();
    foreach ($data as $value)
    {
        $value = explode(",", $value);
        if (count($value) == 2) {
            $value[1] = base64_decode($value[1]);
            $new[intval($value[0])] = $value[1];
        }
    }
    ksort($new, SORT_NUMERIC);
    return $new;
}
  
  
  上面代码中,还有一个函数read_title 比较有技巧。为了兼容性,我没有采用curl,而是直接采用socket 通信。
  在下载到 title 标签后,就停止读取内容,以节省时间。代码如下:
  

代码

function read_title($url)
{
    $url_info = parse_url($url);
    if (!isset($url_info['host']) || !isset($url_info['scheme'])) {
     return false;
    }
    $host = $url_info['host'];
   
$port = isset($url_info['port']) ? $url_info['port'] : null;
$path = isset($url_info['path']) ? $url_info['path']  : "/";
if(isset($url_info['query'])) $path .= "?".$url_info['query'];
if(empty($port)){
  $port = 80;
}
if ($url_info['scheme'] == 'https'){
  $port = 443;
}
if ($url_info['scheme'] == 'http') {
  $port = 80;
}
    $out = "GET $path HTTP/1.1\r\n";
    $out .= "Host: $host\r\n";
    $out .= "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.7)\r\n";
    $out .= "Connection: Close\r\n\r\n";
    $fp = fsockopen($host, $port, $errno, $errstr, 5);
    if ($fp == NULL) {
     error("get title from $url, error. $errno: $errstr \n");
     return false;
    }
    fwrite($fp, $out);
    $content = '';
    while (!feof($fp)) {
        $content .= fgets($fp, 1024);
        if (preg_match("/<title>(.*?)<\/title>/is", $content, $matches)) {
             fclose($fp);
            return encode_to_utf8($matches[1]);
        }
    }
    fclose($fp);
    return false;
}
function encode_to_utf8($string)
{
     return mb_convert_encoding($string, "UTF-8", mb_detect_encoding($string, "UTF-8, GB2312, ISO-8859-1", true));
}
  
  这里,我只是检测了 三种最常见的编码。
  其他的代码都很简单,这些代码都是测试用的,如果你要做这样一个服务器,一定要进行优化处理。特别是,要防止一次打开太多的进程,你要做更多的处理。
  很多时候,我们抱怨php 不支持多进程,实际上,php是支持多进程的。当然,没有那么多的进程通信的选项,而多进程的核心就在于进程的通信与同步。
  在web开发中,这样的多线程基本上是不会使用的,因为有很严重的性能问题。要实现比较简单的多进程,高负载,必须借助其扩展。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-102906-1-1.html 上篇帖子: 从零开始PHP学习 下篇帖子: 利用php soap实现web service
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表