设为首页 收藏本站
查看: 1355|回复: 0

[经验分享] Hadoop配置项整理(mapred-site.xml)

[复制链接]
发表于 2018-11-1 07:07:02 | 显示全部楼层 |阅读模式
  续上篇
name value Descriptionhadoop.job.history.locationjob历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。hadoop.job.history.user.location用户历史文件存放位置io.sort.factor30这里处理流合并时的文件排序数,我理解为排序时打开的文件数io.sort.mb600排序所使用的内存数量,单位兆,默认1,我记得是不能超过mapred.child.java.opt设置,否则会OOMmapred.job.trackerhadoopmaster:9001连接jobtrack服务器的配置项,默认不写是local,map数1,reduce数1mapred.job.tracker.http.address0.0.0.0:50030jobtracker的tracker页面服务监听地址mapred.job.tracker.handler.count15jobtracker服务的线程数mapred.task.tracker.report.address127.0.0.1:0tasktracker监听的服务器,无需配置,且官方不建议自行修改mapred.local.dir/data1/hdfs/mapred/local,  /data2/hdfs/mapred/local,
  ...
mapred做本地计算所使用的文件夹,可以配置多块硬盘,逗号分隔mapred.system.dir/data1/hdfs/mapred/system,  /data2/hdfs/mapred/system,
  ...
mapred存放控制文件所使用的文件夹,可配置多块硬盘,逗号分隔。mapred.temp.dir/data1/hdfs/mapred/temp,  /data2/hdfs/mapred/temp,
  ...
mapred共享的临时文件夹路径,解释同上。mapred.local.dir.minspacestart1073741824本地运算文件夹剩余空间低于该值则不在本地做计算。字节配置,默认0mapred.local.dir.minspacekill1073741824本地计算文件夹剩余空间低于该值则不再申请新的任务,字节数,默认0mapred.tasktracker.expiry.interval60000TT在这个时间内没有发送心跳,则认为TT已经挂了。单位毫秒mapred.map.tasks2默认每个job所使用的map数,意思是假设设置dfs块大小为64M,需要排序一个60M的文件,也会开启2个map线程,当jobtracker设置为本地是不起作用。mapred.reduce.tasks1解释同上mapred.jobtracker.restart.recovertrue | false重启时开启任务恢复,默认false mapred.jobtracker.taskSchedulerorg.apache.hadoop.mapred.  CapacityTaskScheduler
  org.apache.hadoop.mapred.
  JobQueueTaskScheduler
  org.apache.hadoop.mapred.
  FairScheduler

重要的东西,开启任务管理器,不设置的话,hadoop默认是FIFO调度器,其他可以使用公平和计算能力调度器mapred.reduce.parallel.copies10reduce在shuffle阶段使用的并行复制数,默认5mapred.child.java.opts  -Xmx2048m
  -Djava.library.path=
  /opt/hadoopgpl/native/
  Linux-amd64-64
每个TT子进程所使用的虚拟机内存大小tasktracker.http.threads50TT用来跟踪task任务的http server的线程数mapred.task.tracker.http.address0.0.0.0:50060TT默认监听的httpIP和端口,默认可以不写。端口写0则随机使用。mapred.output.compresstrue | false任务结果采用压缩输出,默认false,建议falsemapred.output.compression.codecorg.apache.hadoop.io.  compress.DefaultCodec
输出结果所使用的编解码器,也可以用gz或者bzip2或者lzo或者snappy等mapred.compress.map.outputtrue | falsemap输出结果在进行网络交换前是否以压缩格式输出,默认false,建议true,可以减小带宽占用,代价是会慢一些。mapred.map.output.compression.codeccom.hadoop.compression.  lzo.LzoCodec
map阶段压缩输出所使用的编解码器map.sort.classorg.apache.hadoop.util.  QuickSort
map输出排序所使用的算法,默认快排。mapred.hostsconf/mhost.allow允许连接JT的TT服务器列表,空值全部允许mapred.hosts.excludeconf/mhost.deny禁止连接JT的TT列表,节点摘除是很有作用。mapred.queue.namesETL,rush,default配合调度器使用的队列名列表,逗号分隔mapred.tasktracker.map.  tasks.maximum
12每服务器允许启动的最大map槽位数。mapred.tasktracker.reduce.  tasks.maximum
6每服务器允许启动的最大reduce槽位数  捡一些比较重要的,用的多的配置,官网建议的专家配置项基本没写上,改坏了就不好玩了。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-629103-1-1.html 上篇帖子: Hadoop配置项整理(hdfs-site.xml) 下篇帖子: Ubuntu 安装hadoop1.0.0
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表