hadoop集群内存设置

9404803 · 发表于 2018-10-29 10:20:45

　　1. 内存
　　hadoop为各个守护进程（namenode,secondarynamenode,jobtracker,datanode,tasktracker）统一分配的内存在hadoop-env.sh中设置，参数为HADOOP_HEAPSIZE，默认为1000M。
　　大部分情况下，这个统一设置的值可能并不适合。例如对于namenode节点，1000M的内存只能存储几百万个文件的数据块的引用。如果我想单独设置namenode的内存，可以通过HADOOP_NAMENODE_OPTS来设置。
　　同样的，可以通过HADOOP_SECONDARYNAMENODE_OPTS来设置secondrynamenode的内存，使得它与namenode保持一致。
　　当然，还有HADOOP_DATANODE_OPTS、HADOOP_BALANCER_OPTS、HADOOP_JOBTRACKER_OPTS变量供你使用。
　　此外，tasktracker启动独立的子JVM以运行map和reduce任务，分配给每个子JVM的内存量由mapred.child.java.opts属性（mapred-site.xml）控制，默认值为200M。
　　2. 最大map任务数
　　一个tasktracker能够同时运行最大map任务数，由mapred.tasktracker.map.tasks.maximum属性（mapred-site.xml）控制，默认为2。
　　3. 最大reduce任务数
　　一个tasktracker能够同时运行最大reduce任务数，由mapred.tasktracker.reduce.tasks.maximum属（mapred-site.xml）性控制，默认为2。
　　4. 小总结：计算节点的内存占用量。
　　默认情况下，一个同时运行了namenode，secondarynamenode和jobtracker的主节点，各自使用1000M内存，所以总计使用3000M。
　　默认情况下，一个从节点运行了如下守护进程：
　　1个datanode：默认占用1000M内存。
　　1个tasktracker：默认占用1000M内存。
　　最多2个map任务：2*200M=400M。
　　最多2个reduce任务：2*200M=400M。
　　即默认情况下，一个从节点需要使用2800M内存量。
　　在一个tasktracker上能够同时运行的任务数取决于这台机器上有多少个处理器。由于mapreduce作业通常是I/O-bound，因此将任务数设定为超出处理器数也有一定道理，可以获得更好的利用率。经验法则是任务总数（map任务数与reduce任务数之和）与处理器的比值在1和2之间。
　　例如，假设一台8个处理器的工作节点，每个处理器上运行2个进程，则可以将最大map任务数和最大reduce任务数分别设置成7（因为还有datanode和tasktracker进程，所以不能设置为8），各个JVM子任务可用内存设置为400M，则总内存开销=1000M(datanode)+1000M(tasktracker)+7*400M(map)+7*400M(reduce)=7600M
　　这样配置是否合理，还需要考虑是否给这台机器上的其他进程预留了足够内存，否则可能导致各进程在系统中不断切换，导致性能恶化。可以使用一些工具来监控集群的内存使用情况来进行优化，例如Ganglia工具。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] hadoop集群内存设置

浏览过的版块

扫码加入运维网微信交流群