Docker 容器的资源限制 cgroup(九)

jinquan26 · 发表于 2018-5-26 15:07:21

一、cgroup简介
　　docker 通过 cgroup 来控制容器使用的资源配额，包括 CPU、内存、磁盘三大方面，基本覆盖了常见的资源配额和使用量控制。
　　cgroup 是 Control Groups 的缩写，是 Linux 内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如 cpu、memory、磁盘IO等等) 的机制，被 LXC、docker 等很多项目用于实现进程资源控制。cgroup 将任意进程进行分组化管理的 Linux 内核功能。cgroup 本身是提供将进程进行分组化管理的功能和接口的基础结构，I/O 或内存的分配控制等具体的资源管理功能是通过这个功能来实现的。这些具体的资源管理功能称为 cgroup 子系统，有以下几大子系统实现：

　　blkio：设置限制每个块设备的输入输出控制。例如:磁盘，光盘以及 usb 等等。
cpu：使用调度程序为 cgroup 任务提供 cpu 的访问。
cpuacct：产生 cgroup 任务的 cpu 资源报告。
cpuset：如果是多核心的 cpu，这个子系统会为 cgroup 任务分配单独的 cpu 和内存。
devices：允许或拒绝 cgroup 任务对设备的访问。
freezer：暂停和恢复 cgroup 任务。
memory：设置每个 cgroup 的内存限制以及产生内存资源报告。
net_cls：标记每个网络包以供 cgroup 方便使用。
ns：命名空间子系统。
perf_event：增加了对每 group 的监测跟踪的能力，可以监测属于某个特定的 group 的所有线程以及运行在特定CPU上的线程。

　　目前 docker 只是用了其中一部分子系统，实现对资源配额和使用的控制。
　　可以使用 stress 工具来测试 CPU 和内存。使用下面的 Dockerfile 来创建一个基于 Ubuntu 的 stress 工具镜像。

# Version 0.0.1
FROM ubuntu:14.04
MAINTAINER wzlinux "admin@wzlinux.com"
RUN sed -i 's/archive.ubuntu.com/cn.archive.ubuntu.com/g' /etc/apt/sources.list
RUN sed -i 's/security.ubuntu/cn.archive.ubuntu/g' /etc/apt/sources.list
RUN apt-get -y update && apt-get -y install stress
docker build -t ubuntu:stress .
二、CPU资源配额控制
　　我们第一次可能出现下面的警告信息。

WARNING: Your kernel does not support cgroup swap limit.WARNING: Your
kernel does not support swap limit capabilities.
　　需要我们修改 grub 开启这个功能，我们需要编辑文件 /etc/default/grub，修改成如下信息。

GRUB_CMDLINE_LINUX="cgroup_enable=memory swapaccount=1"
　　然后重启服务器即可。

1、CPU份额控制
　　docker 提供了 -c或者–cpu-shares参数，在创建容器时指定容器所使用的 CPU 份额值。如果不指定，默认值为1024。
　　使用如下命令，创建容器，则最终生成的 cgroup 的 CPU 份额配置可以下面的文件中找到。

root@ubuntu:~# docker run -tid --cpu-shares 100 ubuntu:stress
dad098e7156bf10b4e4798b6ea191067c1dca37b5a0c08f7cc2cf6e7378f8051
root@ubuntu:~# cat /sys/fs/cgroup/cpu/docker/<容器长ID>/cpu.shares
100
　　--cpu-shares 的值不能保证可以获得1个 vcpu 或者多少 GHz 的 CPU 资源，仅仅只是一个弹性的加权值。
　　默认情况下，每个 docker 容器的 cpu 份额都是1024。单独一个容器的份额是没有意义的，只有在同时运行多个容器时，容器的 CPU 加权的效果才能体现出来。例如，两个容器A、B的 CPU 份额分别为1000和500，在 CPU 进行时间片分配的时候，容器 A 比容器 B 多一倍的机会获得 CPU 的时间片，但分配的结果取决于当时主机和其他容器的运行状态，实际上也无法保证容器A一定能获得 CPU 时间片。比如容器A的进程一直是空闲的，那么容器B是可以获取比容器A更多的 CPU 时间片的。极端情况下，比如说主机上只运行了一个容器，即使它的 CPU 份额只有 50，它也可以独占整个主机的 CPU 资源。
　　cgroups 只在容器分配的资源紧缺时，也就是说在需要对容器使用的资源进行限制时，才会生效。因此，无法单纯根据某个容器的 CPU 份额来确定有多少 CPU 资源分配给它，资源分配结果取决于同时运行的其他容器的 CPU 分配和容器中进程运行情况。
　　换句话说：通过 cpu share 可以设置容器使用 CPU 的优先级。
　　比如在 host 中启动了两个容器：

docker run -tid --name cpu512 --cpu-shares 512 ubuntu:stress stress -c 10
docker run -tid --name cpu1024 --cpu-shares 1024 ubuntu:stress stress -c 10
　　可以直接在 host 主机上面使用 top 指令查看，也可以进入容器里面查看，结果是一样的。

　　进入容器 cpu512，使用 top 指令查看负载。

　　进入容器 cpu1024，使用 top 指令查看负载。

　　因为我们是开启了10个进程，为的就是充分让系统资源变得紧张，只有这样竞争资源，我们设定的资源比例才可以显现出来，如果只运行一个进行，他们会自动分配到空闲的CPU，这样比例就无法看出来。目前可以看到总比例是 1:2。

2、CPU周期控制
　　docker 提供了--cpu-period、--cpu-quota两个参数控制容器可以分配到的 CPU 时钟周期。
　　--cpu-period是用来指定容器对 CPU 的使用要在多长时间内做一次重新分配。
　　--cpu-quota是用来指定在这个周期内，最多可以有多少时间用来跑这个容器。跟 –cpu-shares 不同的是这种配置是指定一个绝对值，而且没有弹性在里面，容器对 CPU 资源的使用绝对不会超过配置的值。
　　cpu-period 和 cpu-quota 的单位为微秒（μs）。cpu-period 的最小值为 1000 微秒，最大值为1秒（10^6 μs），默认值为 0.1 秒（100000 μs）。cpu-quota 的值默认为 -1，表示不做控制。
　　举个例子，如果容器进程需要每 1 秒使用单个 CPU 的 0.2 秒时间，可以将 cpu-period 设置为1000000（即1秒），cpu-quota 设置为 200000（0.2秒）。当然，在多核情况下，如果允许容器进程需要完全占用两个 CPU，则可以将 cpu-period 设置为 100000（即0.1秒），cpu-quota 设置为 200000（0.2秒）。
　　使用示例：

docker run -tid --cpu-period 100000 --cpu-quota 200000 ubuntu
　　则最终生成的 cgroup 的 CPU 周期配置可以下面的文件中找到：

root@ubuntu:~# cat /sys/fs/cgroup/cpu/docker/<容器的完整长ID>/cpu.cfs_period_us
100000
root@ubuntu:~# cat /sys/fs/cgroup/cpu/docker/<容器的完整长ID>/cpu.cfs_quota_us
200000
3、CPU core控制
　　对多核 CPU 的服务器，docker 还可以控制容器运行限定使用哪些 CPU 内核和内存节点，即使用–cpuset-cpu s和–cpuset-mems参数。对具有 NUMA 拓扑（具有多 CPU、多内存节点）的服务器尤其有用，可以对需要高性能计算的容器进行性能最优的配置。
　　如果服务器只有一个内存节点，则–cpuset-mems的配置基本上不会有明显效果。
使用示例：

docker run -tid --name cpu1 --cpuset-cpus 0-2 ubuntu
　　表示创建的容器只能用0、1、2这三个内核。最终生成的 cgroup 的 cpu 内核配置如下：

root@ubuntu:~# cat /sys/fs/cgroup/cpuset/docker/<容器的完整长ID>/cpuset.cpus
0-2
　　通过下面指令可以看到容器中进程与 CPU 内核的绑定关系，可以认为达到了绑定 CPU 内核的目的。

docker exec <容器ID> taskset -c -p 1(容器内部第一个进程编号一般为1)

4、CPU配额控制参数的混合使用
　　当上面这些参数中时，cpu-shares 控制只发生在容器竞争同一个内核的时间片时，如果通过 cpuset-cpus 指定容器A使用内核 0，容器 B 只是用内核 1，在主机上只有这两个容器使用对应内核的情况，它们各自占用全部的内核资源，cpu-shares 没有明显效果。
　　cpu-period、cpu-quota 这两个参数一般联合使用，在单核情况或者通过 cpuset-cpus 强制容器使用一个 CPU 内核的情况下，即使cpu-quota 超过 cpu-period，也不会使容器使用更多的CPU资源。
　　cpuset-cpus、cpuset-mems 只在多核、多内存节点上的服务器上有效，并且必须与实际的物理配置匹配，否则也无法达到资源控制的目的。
　　在系统具有多个CPU内核的情况下，需要通过 cpuset-cpus 为容器 CPU 内核才能比较方便地进行测试。
试用下列命令创建测试用的容器：

docker run -tid --name cpu1 --cpuset-cpus 3 --cpu-shares 512 ubuntu:stress stress -c 1
docker run -tid --name cpu2 --cpuset-cpus 3 --cpu-shares 1024 ubuntu:stress stress -c 1
　　上面的 ubuntu:stress 镜像安装了 stress 工具来测试 CPU 和内存的负载。两个容器的命令 stress -c 1，这个命令将会给系统一个随机负载，产生 1 个进程，这个进程都反复不停的计算由 rand() 产生随机数的平方根，直到资源耗尽。
观察到宿主机上的 CPU 试用率如下图所示，第三个内核的使用率接近100%，并且一批进程的 CPU 使用率明显存在 2:1 的使用比例的对比：

二、对内存的限额
　　与操作系统类似，容器可使用的内存包括两部分：物理内存和 swap。 Docker 通过下面两组参数来控制容器内存的使用量。

-m 或 --memory：设置内存的使用限额，例如 100M, 2G。

--memory-swap：设置内存+swap 的使用限额。

　　当我们执行如下命令：

docker run -m 200M --memory-swap=300M ubuntu
　　其含义是允许该容器最多使用 200M 的内存和 100M 的 swap。默认情况下，上面两组参数为 -1，即对容器内存和 swap 的使用没有限制。
　　下面我们将使用 progrium/stress 镜像来学习如何为容器分配内存。该镜像可用于对容器执行压力测试。执行如下命令：

docker run -it -m 200M --memory-swap=300M progrium/stress --vm 1 --vm-bytes 280M

--vm 1：启动 1 个内存工作线程。

--vm-bytes 280M：每个线程分配 280M 内存。

　　默认情况下，容器可以使用主机上的所有空闲内存。
　　与 CPU 的 cgroups 配置类似，docker 会自动为容器在目录 /sys/fs/cgroup/memory/docker/<容器的完整长ID>中创建相应 cgroup 配置文件。
　　运行结果如下：

　　因为 280M 在可分配的范围（300M）内，所以工作线程能够正常工作，其过程是：

分配 280M 内存。

释放 280M 内存。

再分配 280M 内存。

再释放 280M 内存。

一直循环......

　　如果让工作线程分配的内存超过 300M，结果如下：

　　分配的内存超过限额，stress 线程报错，容器退出。

三、对 Block IO 的限制
　　Block IO 是另一种可以限制容器使用的资源。Block IO 指的是磁盘的读写，docker 可通过设置权重、限制 bps 和 iops 的方式控制容器读写磁盘的带宽。

1、block IO 权重
　　默认情况下，所有容器能平等地读写磁盘，可以通过设置--blkio-weight参数来改变容器 block IO 的优先级。
　　--blkio-weight 与 --cpu-shares 类似，设置的是相对权重值，默认为 500。在下面的例子中，container_A 读写磁盘的带宽是 container_B 的两倍。

docker run -it --name container_A --blkio-weight 600 ubuntu
docker run -it --name container_B --blkio-weight 300 ubuntu
　　同样的，我们可以在 /sys/fs/cgroup/blkio/docker 看到 block IO 的数值。

2、限制 bps 和 iops

　　bps 是 byte per second，每秒读写的数据量。
iops 是 io per second，每秒 IO 的次数。

　　可通过以下参数控制容器的 bps 和 iops：

　　--device-read-bps，限制读某个设备的 bps。
--device-write-bps，限制写某个设备的 bps。
--device-read-iops，限制读某个设备的 iops。
--device-write-iops，限制写某个设备的 iops。

　　下面这个例子限制容器写 /dev/sda 的速率为 30 MB/s

docker run -it --device-write-bps /dev/sda:30MB ubuntu
　　我们来看看实验结果：

通过 dd 测试在容器中写磁盘的速度。因为容器的文件系统是在 host /dev/sda 上的，在容器中写文件相当于对 host /dev/sda 进行写操作。另外，oflag=direct 指定用 direct IO 方式写文件，这样 --device-write-bps 才能生效。

　　结果表明，bps 22.3 MB/s 没有超过 30 MB/s 的限速。
　　作为对比测试，如果不限速，结果如下：

　　参考：https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/6/html/resource_management_guide/sec-cpu

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Docker 容器的资源限制 cgroup(九)

浏览过的版块

扫码加入运维网微信交流群