设为首页 收藏本站
查看: 1112|回复: 0

[经验分享] python学习笔记 | Python中的线程与进程简介

[复制链接]

尚未签到

发表于 2018-8-5 13:14:28 | 显示全部楼层 |阅读模式
  近日,我开始对代码的各个部分进行计时,以了解我是否可以加快速度。
  令我惊讶的是,我发现数据增强是最大的瓶颈。我使用的方法:旋转,翻转,缩放。依靠Numpy并在CPU上运行。Numpy在某些情况下使用并行处理,而Pytorch的数据加载器也是如此,但我一次运行3-5个实验,每个实验都在做自己的增强。这似乎效率低下,我很好奇,看看我能否通过并行处理来加快速度。
DSC0000.jpg


什么是并行处理?
  基本上可以同时做两件事情,既可以在不同的CPU上同时运行代码,也可以在同一个CPU上运行代码,并在程序等待外部资源时利用“浪费的”CPU周期实现加速:文件加载,API调用。
  作为一个例子,这是一个“正常”的程序。它使用单个线程一次下载一个URL列表。
DSC0001.jpg

  这是使用2个线程的相同程序。它将线索分开给我们提供了近2倍的加速。
DSC0002.jpg

  如果您很好奇如何生成这些图表以及它们的含义,您可以在这里找到代码,但要简要总结一下:
  1.在函数中添加一个计时器并返回其开始和停止时间
  

  
URLS = [url1, url2, url3, ...]defdownload(url, base):
  

  start = time.time() - base
  

  resp = urlopen(url)
  

  stop = time.time() - base
  

  return start,stop
  

  

  2.要想显示一个线程,多次运行你的函数并存储开始和停止时间
  

  
results = [download(url, 1) for url inURLS]
  

  

  3.转置[开始,停止]时间的结果数组并绘制条形图
  

  
def visualize_runtimes(results):
  

  start,stop = np.array(results).T
  

  plt.barh(range(len(start)), stop-start, left=start)
  

  plt.grid(axis=’x’)
  

  plt.ylabel("Tasks")
  

  plt.xlabel("Seconds")
  

  

  多个线程的图表可以以相同的方式生成。Python的并发库中的方法返回结果数组。

进程与线程
  一个进程是一个程序实例(例如Jupyter笔记本,Python解释器)。进程产生线程(子进程)来处理子任务,如读取击键,加载HTML页面,保存文件。线程存在于进程内并共享相同的内存空间。
  示例:MicrosoftWord
  当您打开Word时,您将创建一个进程。当你开始输入时,进程会产生线程:一个读取击键,另一个显示文本,一个自动保存文件,另一个突出显示拼写错误。通过产生多个线程,Microsoft利用闲置的CPU时间(等待击键或文件加载)并使您的工作效率更高。

处理


  •   由操作系统创建运行程序

  •   进程可以有多个线程

  •   两个进程可以在同一个python程序中同时执行代码

  •   进程比线程开销更多,因为打开和关闭进程需要更多时间

  • 在进程之间共享信息比在线程之间共享慢,因为进程不共享内存空间。在python中,他们通过酸洗像数组这样的需要IO时间的数据结构来共享信息。
线


  •   线程就像进程内部的微型进程

  •   它们共享内存空间并高效地读写相同的变量

  • 两个线程无法在同一个python程序中同时执行代码(尽管有解决方法)
CPU与核心
  该CPU或处理器,管理计算机的基本运算工作。CPU有一个或多个内核,允许CPU同时执行代码。
  使用单核时,CPU密集型任务(例如循环,算术)不会加速。操作系统在执行每个任务的任务之间来回切换。这就是为什么对于小型操作(例如下载几张图像),多任务处理有时会损害您的性能。与启动和维护多个任务相关的开销。

Python的GIL  问题
  CPython(标准的python实现)有一个叫做GIL(全局解释器锁)的东西,它阻止两个线程在同一个程序中同时执行。有些人为此感到难过,而另一些人则为此辩护。然而,有一些解决方法,像Numpy这样的库通过在C中运行外部代码来绕过这个限制。

何时使用线程与进程?


  •   进程加速了CPU密集型的Python操作,因为它们受益于多核并避免GIL。

  •   线程最适合涉及外部系统的IO任务或任务,因为线程可以更有效地组合工作。过程需要腌制他们的结果来组合它们,这需要时间。

  • 由于GIL,线程对于CPU密集型任务的python没有任何好处。
  对于像Dot Product这样的特定操作,Numpy围绕Python的GIL工作,并行执行代码。
  我将本篇博文的代码都已经打包放在我的群里啦。
  如果需要代码或者需要有关python的资料都可以加,七二五,四七九,二一八
DSC0003.jpg

  #并行处理示例
  Python的concurrent.futures库令人惊喜地愉快地工作。只需传递你的功能,一系列要处理的项目以及工作人员的数量。在接下来的几节中,我会通过运行各种实验来了解更多关于何时使用线程与处理的内容。

  concurrent.futures:
  https://docs.python.org/3/library/concurrent.futures.html

  

  
def multithreading(func, args,
  

  workers):
  

  with ThreadPoolExecutor(workers) as ex:
  

  res = ex.map(func, args)
  

  return list(res)def multiprocessing(func, args,
  

  workers):
  

  with ProcessPoolExecutor(work) as ex:
  

  res = ex.map(func, args)
  

  return list(res)
  

  

API调用
  我发现线程更适合API调用,并观察到串行处理和多处理的加速。
  

  
def download(url):
  

  try:
  

  resp = urlopen(url)
  

  except Exception as e:
  

  print ('ERROR: %s' % e)
  

  

DSC0004.jpg

DSC0005.jpg

DSC0006.jpg

DSC0007.jpg

DSC0008.jpg


IO重任务
  我传入了一堆巨大的文本字符串,以查看写入性能的差异。线程似乎在这里赢了,但多处理也提高了运行时间。
  

  
def io_heavy(text):
  

  f= open('output.txt', 'wt', encoding='utf-8')
  

  f.write(text)
  

  f.close()
  

  

  串行
  

  
%timeit -n 1 [io_heavy(TEXT,1) for i inrange(N)]
  

  
>> 1 loop, best of 3: 1.37 s per loop
  

  

DSC0009.jpg

DSC00010.jpg

  ##CPU强化
  按照预期,多处理在这里赢得了一天。进程避免GIL并在多个内核上同时执行代码。
  

  
def cpu_heavy(n):
  

  count = 0
  

  for i in range(n):
  

  count += i
  

  

DSC00011.jpg

  序列号: 4.2秒
  4线程: 6.5秒
  4进程: 1.9秒

Numpy Dot产品
  正如所料,我没有看到在这段代码中增加线程或进程的好处。Numpy在幕后执行外部C代码,从而避开GIL。
  

  
def dot_product(i, base):
  

  start = time.time() - base
  

  res = np.dot(a,b)
  

  stop = time.time() - base
  

  return start,stop
  

  

  序列: 2.8秒
  2线程: 3.4秒
  2进程: 3.3秒
  Github地址:
  https://github.com/bfortuner/ml-study/blob/master/multitasking_python.ipynb
  我将本篇博文的代码都已经打包放在我的群里啦。
  如果需要代码或者需要有关python的资料都可以加。七二五,四七九,二一八
DSC00012.jpg

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-547042-1-1.html 上篇帖子: Python之路(三)Python数据类型 下篇帖子: python目录操作一
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表