设为首页 收藏本站
查看: 718|回复: 0

[经验分享] Python异步IO

[复制链接]

尚未签到

发表于 2015-12-1 11:55:11 | 显示全部楼层 |阅读模式
前言

异步操作在计算机软硬件体系中是一个普遍概念,根源在于参与协作的各实体处理速度上有明显差异。软件开发中遇到的多数情况是CPU与IO的速度不匹配,所以异步IO存在于各种编程框架中,客户端比如浏览器,服务端比如node.js。本文主要分析Python异步IO。

Python 3.4标准库有一个新模块asyncio,用来支持异步IO,不过目前API状态是provisional,意味着不保证向后兼容性,甚至可能从标准库中移除(可能性极低)。如果关注PEP和Python-Dev会发现该模块酝酿了很长时间,可能后续有API和实现上的调整,但毋庸置疑asyncio非常实用且功能强大,值得学习和深究。

示例

asyncio主要应对TCP/UDP socket通信,从容管理大量连接,而无需创建大量线程,提高系统运行效率。此处将官方文档的一个示例做简单改造,实现一个HTTP长连接benchmark工具,用于诊断WEB服务器长连接处理能力。

功能概述:
每隔10毫秒创建10个连接,直到目标连接数(比如10k),同时每个连接都会规律性的向服务器发送HEAD请求,以维持HTTP keepavlie。

代码如下:


  点击(此处)折叠或打开


  • import argparse
  • import asyncio
  • import functools
  • import logging
  • import random
  • import urllib.parse

  • loop = asyncio.get_event_loop()

  • @asyncio.coroutine
  • def print_http_headers(no, url, keepalive):
  •     url = urllib.parse.urlsplit(url)
  •     wait_for = functools.partial(asyncio.wait_for, timeout=3, loop=loop)
  •     query = ('HEAD {url.path} HTTP/1.1\r\n'
  •              'Host: {url.hostname}\r\n'
  •              '\r\n').format(url=url).encode('utf-8')

  •     rd, wr = yield from wait_for(asyncio.open_connection(url.hostname, 80))
  •     while True:
  •         wr.write(query)

  •         while True:
  •             line = yield from wait_for(rd.readline())
  •             if not line: # end of connection
  •                 wr.close()
  •                 return no
  •             line = line.decode('utf-8').rstrip()
  •             if not line: # end of header
  •                 break
  •             logging.debug('(%d) HTTP header> %s' % (no, line))

  •         yield from asyncio.sleep(random.randint(1, keepalive//2))


  • @asyncio.coroutine
  • def do_requests(args):
  •     conn_pool = set()
  •     waiter = asyncio.Future()

  •     def _on_complete(fut):
  •         conn_pool.remove(fut)
  •         exc, res = fut.exception(), fut.result()
  •         if exc is not None:
  •             logging.info('conn#{} exception'.format(exc))
  •         else:
  •             logging.info('conn#{} result'.format(res))

  •         if not conn_pool:
  •             waiter.set_result('event loop is done')

  •     for i in range(args.connections):
  •         fut = asyncio.async(print_http_headers(i, args.url, args.keepalive))
  •         fut.add_done_callback(_on_complete)
  •         conn_pool.add(fut)
  •         if i % 10 == 0:
  •             yield from asyncio.sleep(0.01)

  •     logging.info((yield from waiter))


  • def main():
  •     parser = argparse.ArgumentParser(description='asyncli')
  •     parser.add_argument('url', help='page address')
  •     parser.add_argument('-c', '--connections', type=int, default=1,
  •                         help='number of connections simultaneously')
  •     parser.add_argument('-k', '--keepalive', type=int, default=60,
  •                         help='HTTP keepalive timeout')
  •     args = parser.parse_args()

  •     logging.basicConfig(level=logging.INFO, format='%(asctime)s %(message)s')
  •     loop.run_until_complete(do_requests(args))
  •     loop.close()


  • if __name__ == '__main__':
  •     main()


测试与分析

硬件:CPU 2.3GHz / 2 cores,RAM 2GB
软件:CentOS 6.5(kernel 2.6.32), Python 3.3 (pip install asyncio), nginx 1.4.7
参数设置:ulimit -n 10240;nginx worker的连接数改为10240

启动WEB服务器,只需一个worker进程:


  • # ../sbin/nginx
  • # ps ax | grep nginx
  • 2007 ? Ss 0:00 nginx: master process ../sbin/nginx
  • 2008 ? S 0:00 nginx: worker process


启动benchmark工具, 发起10k个连接,目标URL是nginx的默认测试页面:


  • $ python asyncli.py http://10.211.55.8/ -c 10000


nginx日志统计平均每秒请求数:


  • # tail -1000000 access.log | awk '{ print $4 }' | sort | uniq -c | awk '{ cnt+=1; sum+=$1 } END { printf "avg = %d\n", sum/cnt }'
  • avg = 548


top部分输出:


  • VIRT   RES   SHR  S %CPU  %MEM   TIME+  COMMAND
  • 657m   115m  3860 R 60.2  6.2   4:30.02  python
  • 54208  10m   848  R 7.0   0.6   0:30.79  nginx


总结:
1. Python实现简洁明了。不到80行代码,只用到标准库,逻辑直观,想象下C/C++标准库实现这些功能,顿觉“人生苦短,我用Python”。

2. Python运行效率不理想。当连接建立后,客户端和服务端的数据收发逻辑差不多,看上面top输出,Python的CPU和RAM占用基本都是nginx的10倍,意味着效率相差100倍(CPU x RAM),侧面说明了Python与C的效率差距。这个对比虽然有些极端,毕竟nginx不仅用C且为CPU/RAM占用做了深度优化,但相似任务效率相差两个数量级,除非是BUG,说明架构设计的出发点就是不同的,Python优先可读易用而性能次之,nginx就是一个高度优化的WEB服务器,开发一个module都比较麻烦,要复用它的异步框架,简直难上加难。开发效率与运行效率的权衡,永远都存在。

3. 单线程异步IO v.s. 多线程同步IO。上面的例子是单线程异步IO,其实不写demo就知道多线程同步IO效率低得多,每个线程一个连接?10k个线程,仅线程栈就占用600+MB(64KB * 10000)内存,加上线程上下文切换和GIL,基本就是噩梦。

ayncio核心概念

以下是学习asyncio时需要理解的四个核心概念,更多细节请看<参考资料>

1. event loop。单线程实现异步的关键就在于这个高层事件循环,它是同步执行的。
2. future。异步IO有很多异步任务构成,而每个异步任务都由一个future控制。
3. coroutine。每个异步任务具体的执行逻辑由一个coroutine来体现。
4. generator(yield & yield from) 。在asyncio中大量使用,是不可忽视的语法细节。

参考资料

1. asyncio – Asynchronous I/O, event loop, coroutines and tasks, https://docs.python.org/3/library/asyncio.html
2. PEP 3156, Asynchronous IO Support Rebooted: the "asyncio” Module, http://legacy.python.org/dev/peps/pep-3156/
3. PEP 380, Syntax for Delegating to a Subgenerator, http://legacy.python.org/dev/peps/pep-0380/
4. PEP 342, Coroutines via Enhanced Generators, http://legacy.python.org/dev/peps/pep-0342/
5. PEP 255, Simple Generators, http://legacy.python.org/dev/peps/pep-0255/
6. asyncio source code, http://hg.python.org/cpython/file/3.4/Lib/asyncio/

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-145836-1-1.html 上篇帖子: python实现一个图灵机器人 下篇帖子: python os os.path模块学习笔记
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表