python学习笔记 | Python中的线程与进程简介

sexevil · 发表于 2018-8-5 13:14:28

　　近日，我开始对代码的各个部分进行计时，以了解我是否可以加快速度。
　　令我惊讶的是，我发现数据增强是最大的瓶颈。我使用的方法：旋转，翻转，缩放。依靠Numpy并在CPU上运行。Numpy在某些情况下使用并行处理，而Pytorch的数据加载器也是如此，但我一次运行3-5个实验，每个实验都在做自己的增强。这似乎效率低下，我很好奇，看看我能否通过并行处理来加快速度。

什么是并行处理？
　　基本上可以同时做两件事情，既可以在不同的CPU上同时运行代码，也可以在同一个CPU上运行代码，并在程序等待外部资源时利用“浪费的”CPU周期实现加速：文件加载，API调用。
　　作为一个例子，这是一个“正常”的程序。它使用单个线程一次下载一个URL列表。

　　这是使用2个线程的相同程序。它将线索分开给我们提供了近2倍的加速。

　　如果您很好奇如何生成这些图表以及它们的含义，您可以在这里找到代码，但要简要总结一下：
　　1.在函数中添加一个计时器并返回其开始和停止时间
　　

　　
URLS = [url1, url2, url3, ...]defdownload(url, base):
　　

　　start = time.time() - base
　　

　　resp = urlopen(url)
　　

　　stop = time.time() - base
　　

　　return start,stop
　　

　　

　　2.要想显示一个线程，多次运行你的函数并存储开始和停止时间
　　

　　
results = [download(url, 1) for url inURLS]
　　

　　

　　3.转置[开始，停止]时间的结果数组并绘制条形图
　　

　　
def visualize_runtimes(results):
　　

　　start,stop = np.array(results).T
　　

　　plt.barh(range(len(start)), stop-start, left=start)
　　

　　plt.grid(axis=’x’)
　　

　　plt.ylabel("Tasks")
　　

　　plt.xlabel("Seconds")
　　

　　

　　多个线程的图表可以以相同的方式生成。Python的并发库中的方法返回结果数组。

进程与线程
　　一个进程是一个程序实例（例如Jupyter笔记本，Python解释器）。进程产生线程（子进程）来处理子任务，如读取击键，加载HTML页面，保存文件。线程存在于进程内并共享相同的内存空间。
　　示例：MicrosoftWord
　　当您打开Word时，您将创建一个进程。当你开始输入时，进程会产生线程：一个读取击键，另一个显示文本，一个自动保存文件，另一个突出显示拼写错误。通过产生多个线程，Microsoft利用闲置的CPU时间（等待击键或文件加载）并使您的工作效率更高。

处理

　　由操作系统创建运行程序
　　进程可以有多个线程
　　两个进程可以在同一个python程序中同时执行代码
　　进程比线程开销更多，因为打开和关闭进程需要更多时间
在进程之间共享信息比在线程之间共享慢，因为进程不共享内存空间。在python中，他们通过酸洗像数组这样的需要IO时间的数据结构来共享信息。

线

　　线程就像进程内部的微型进程
　　它们共享内存空间并高效地读写相同的变量
两个线程无法在同一个python程序中同时执行代码（尽管有解决方法）

CPU与核心
　　该CPU或处理器，管理计算机的基本运算工作。CPU有一个或多个内核，允许CPU同时执行代码。
　　使用单核时，CPU密集型任务（例如循环，算术）不会加速。操作系统在执行每个任务的任务之间来回切换。这就是为什么对于小型操作（例如下载几张图像），多任务处理有时会损害您的性能。与启动和维护多个任务相关的开销。

Python的GIL 问题
　　CPython（标准的python实现）有一个叫做GIL（全局解释器锁）的东西，它阻止两个线程在同一个程序中同时执行。有些人为此感到难过，而另一些人则为此辩护。然而，有一些解决方法，像Numpy这样的库通过在C中运行外部代码来绕过这个限制。

何时使用线程与进程？

　　进程加速了CPU密集型的Python操作，因为它们受益于多核并避免GIL。
　　线程最适合涉及外部系统的IO任务或任务，因为线程可以更有效地组合工作。过程需要腌制他们的结果来组合它们，这需要时间。
由于GIL，线程对于CPU密集型任务的python没有任何好处。

　　对于像Dot Product这样的特定操作，Numpy围绕Python的GIL工作，并行执行代码。
　　我将本篇博文的代码都已经打包放在我的群里啦。
　　如果需要代码或者需要有关python的资料都可以加，七二五，四七九，二一八

　　#并行处理示例
　　Python的concurrent.futures库令人惊喜地愉快地工作。只需传递你的功能，一系列要处理的项目以及工作人员的数量。在接下来的几节中，我会通过运行各种实验来了解更多关于何时使用线程与处理的内容。

　　concurrent.futures：
　　https://docs.python.org/3/library/concurrent.futures.html

　　

　　
def multithreading(func, args,
　　

　　workers):
　　

　　with ThreadPoolExecutor(workers) as ex:
　　

　　res = ex.map(func, args)
　　

　　return list(res)def multiprocessing(func, args,
　　

　　workers):
　　

　　with ProcessPoolExecutor(work) as ex:
　　

　　res = ex.map(func, args)
　　

　　return list(res)
　　

　　

API调用
　　我发现线程更适合API调用，并观察到串行处理和多处理的加速。
　　

　　
def download(url):
　　

　　try:
　　

　　resp = urlopen(url)
　　

　　except Exception as e:
　　

　　print ('ERROR: %s' % e)
　　

　　

IO重任务
　　我传入了一堆巨大的文本字符串，以查看写入性能的差异。线程似乎在这里赢了，但多处理也提高了运行时间。
　　

　　
def io_heavy(text):
　　

　　f= open('output.txt', 'wt', encoding='utf-8')
　　

　　f.write(text)
　　

　　f.close()
　　

　　

　　串行
　　

　　
%timeit -n 1 [io_heavy(TEXT,1) for i inrange(N)]
　　

　　
>> 1 loop, best of 3: 1.37 s per loop
　　

　　

　　##CPU强化
　　按照预期，多处理在这里赢得了一天。进程避免GIL并在多个内核上同时执行代码。
　　

　　
def cpu_heavy(n):
　　

　　count = 0
　　

　　for i in range(n):
　　

　　count += i
　　

　　

　　序列号： 4.2秒
　　4线程： 6.5秒
　　4进程： 1.9秒

Numpy Dot产品
　　正如所料，我没有看到在这段代码中增加线程或进程的好处。Numpy在幕后执行外部C代码，从而避开GIL。
　　

　　
def dot_product(i, base):
　　

　　start = time.time() - base
　　

　　res = np.dot(a,b)
　　

　　stop = time.time() - base
　　

　　return start,stop
　　

　　

　　序列： 2.8秒
　　2线程： 3.4秒
　　2进程： 3.3秒
　　Github地址：
　　https://github.com/bfortuner/ml-study/blob/master/multitasking_python.ipynb
　　我将本篇博文的代码都已经打包放在我的群里啦。
　　如果需要代码或者需要有关python的资料都可以加。七二五，四七九，二一八

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] python学习笔记 | Python中的线程与进程简介

浏览过的版块

扫码加入运维网微信交流群