设为首页 收藏本站
查看: 1034|回复: 0

[经验分享] Hive使用一段时间后Hadoop集群占用空间暴增的原因

[复制链接]
发表于 2016-12-13 08:48:44 | 显示全部楼层 |阅读模式
  我使用的是hive。
  所有的数据也是在hive中 load data inpath 导入的
  导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse
   以一个表一个文件夹的形式
  两天来一直面对着一个困惑
  从hive中load进去的数据只有600G但是页面显示的DFS Used却为4.2T
  这个数据时很不正常的
  因为简单地算一下 600G dfs.replication = 3 那么也在1.4T左右的空间。
  通过查看 browse the file system 看到三个文件夹
  /data   对应于 dfs.data.dir
  /system
  /user 对应于 hive.metastore.warehouse.dir
  

  问题已经解决,空间容量已经下降到正常值了,可以正常使用运算了。
  原因是:
  运算过程产生的中间的数据并没有删除掉。因为有些操作产生的结果并没有放到warehouse中,那么这部分数据就放到了/data目录下,系统没能够自动删除这部分数据,所以导致空间上涨很快。
  例如;
  create table test( ip string );
  insert overwrite table test select ip from blog;
  这样结果是保存到hive中的;
  但如果直接
  select ip from blog;
  那么结果是临时放在/data目录下的,但是最终却没有释放。
  这个dfs.data.dir 默认目录本为/tmp由liunx系统定期自动删除,路径被覆盖为/data/hadoop-0.19.1/dfsdata后系统就找不到了,所以无法自动删除。
  

  不可以直接删除这个目录,否则会导致全部数据块丢失。
  必须进入hdfs删除
  方法如下
  hadoop fs -rmr hdfs:////data/
  

  hive中的操作并不是 实时执行的,会有一定的延迟,所以有时执行操作,并不会立即看的到。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-313523-1-1.html 上篇帖子: hbase 0.94.26 + hadoop 2.2.0 编译问题(续) 下篇帖子: hadoop中NameNode、DataNode和Client三者之间协作关系及通信方式介绍
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表