设为首页 收藏本站
查看: 770|回复: 0

[经验分享] PHP 使用 QPM 实现多进程并行任务处理程序

[复制链接]

尚未签到

发表于 2015-12-24 10:03:33 | 显示全部楼层 |阅读模式
考虑用PHP实现以下场景: 有一个抓站的URL列表保存在队列里,后台程序读取这个队列,然后转交给子进程去抓取HTML存放到文件里。 为了提高效率,允许多任务并行执行,但为了避免机器负载过高,限制了最大的并行任务数(为了测试方便,我们把这个数设为3),当队列中取到 END标记时,程序结束运行。
这个场景用QPM的Supervisor::taskFactoryMode()实现,非常简单。
QPM全名是 Quick Process Management Module for PHP. PHP 是强大的web开发语言,以至于大家常常忘记PHP 可以用来开发健壮的命令行(CLI)程序以至于daemon程序。 而编写daemon程序免不了与各种进程管理打交道。QPM正式为简化进程管理而开发的类库。QPM的项目地址是: https://github.com/Comos/qpm
为了,简化测试环境,我们可以用一个文本文件来模拟队列的数据。完整的例子文件看这里:spider_task_factory_data.txt
  
http://news.sina.com.cn/http://news.ifeng.com/http://news.163.com/http://news.sohu.com/http://ent.sina.com.cn/http://ent.ifeng.com/  ...
  END
  
使用QPM的taskFactoryMode之前,我们需要准备一个TaskFactory类。 我们将其命名为 SpiderTaskFactory,SpdierTaskFactory 的工厂方法fetchTask 正常返回 Runnable的子类的实例。当碰到END或文件结束,则throw StopSignal,这样程序就会终止。
以下是组装 Supervisor 并执行的代码片段。完整的例子见: spider_task_factory.php
  
//如果没有从参数指定输入,把spider_task_factory_data.txt作为数据源$input = isset($argv[1]) ? $argv[1] : __DIR__.'/spider_task_factory_data.txt';$spiderTaskFactory = new SpiderTaskFactory($input);$config = [    //指定taskFactory对象和工厂方法  'factoryMethod'=>[$spiderTaskFactory, 'fetchTask'],    //指定最大并发数量为3
  'quantity' => 3,
  ];//启动Supervisorqpm\supervisor\Supervisor::taskFactoryMode($config)->start();
  
SpiderTaskFactory 的实现如下:
  
/**  * 任务工厂,必须实现 fetchTask方法。
  * 该方法正常返回
  *
  */class SpiderTaskFactory {private $_fh;public function __construct($input) {
  $this->_input = $input;$this->_fh = fopen($input, 'r');if ($this->_fh === false) {throw new Exception('fopen failed:'.$input);
  }
  }public function fetchTask() {
  while (true) {if (feof($this->_fh)) {throw new qpm\supervisor\StopSignal();
  }$line = trim(fgets($this->_fh));if ($line == 'END') {throw new qpm\supervisor\StopSignal();
  }if (empty($line)) {continue;
  }break;
  }return new SpiderTask($line);
  }
  }
  
  
SpiderTask 的实现如下:
  
/**  * 在子进程中执行任务的类
  * 必须实现 qpm\process\Runnable 接口
  */class SpiderTask implements qpm\process\Runnable {private $_target;public function __construct($target) {
  $this->_target = $target;
  }//在子进程中执行的部分public function run() {
  $r = @file_get_contents($this->_target);if ($r===false) {throw new Exception('fail to crawl url:'.$this->_target);
  }
  file_put_contents($this->getLocalFilename(), $r);   
  }private function getLocalFilename() {
  $filename = str_replace('/', '~', $this->_target);$filename = str_replace(':', '_', $filename);$filename = $filename.'-'.date('YmdHis');return __DIR__.'/_spider/'.$filename.'.html';
  }
  }
  
  
真实的生产环境,用队列替换文件输入,即可实现持久运行的生产者/消费者模型的程序。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-155589-1-1.html 上篇帖子: PHP中get 下篇帖子: PHP入门
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表