张颢镡 发表于 2018-10-30 13:43:35

hadoop优化


[*]  hadoop 分散磁盘I/O
  配置 dfs.data.dir,将其值配置为多块磁盘
  dfs.data.dir
  /data/data1,/data/data2,/data/data3
  ####假设多块磁盘被挂在以上目录中
  2.mapreduce中间数据临时文件分散写
  老的配置参数为,mapred.local.dir,新配置待查。
  3.以noatime和nodiratime方式装载磁盘
  #atime:linux中文件在创建、修改、访问的时候会更新时间信息,是一笔很大的资源开销。
  #diratime:每一次访问需要更新inode在文件系统中的访问时间。
  设置:
  #1:卸载磁盘
  #2:修改
  vi /etc/fstab
  /dev/xvdc/mnt/is1ext3defaults,noatime,nodiratime 0 0
  /dev/xvdd/mnt/is2ext3defaults,noatime,nodiratime 0 0
  #3:重新挂载
  4.取消特权块空间
  默认情况下,会保留一些文件块供特权进程使用,为防止用户进程将空间占满,使得系统进程饿死。
  因为我们的集群就是使用hadoop,所以可以降低这些块的百分比。
  5.vm.swappiness
  该参数用来定义将内存页交换到磁盘中的主动程序,值越低表示交换频率越低。
  如果交换频率过高,会导致regionserver进程因为zookeeper会话超时而被强制终止。

页: [1]
查看完整版本: hadoop优化