当前位置:网站首页>解决小文件处过多

解决小文件处过多

2022-07-06 09:01:00 棱镜7


1. 使用hive自带的concatenate命令,自动合并小文件

使用方法:在这里插入图片描述

2. 调整参数减少map数量

在执行map前进行小文件合并,在 mapper 中将多个文件合成一个 split 作为输入。调整split 的至少大小

3. 减少Reduce的数量

reduce 的个数决定了输出的文件的个数,所以可以调整 reduce 的个数控制 hive表的文件数量。

4. HAR归档

使用hadoop的archive将小文件归档,能够将多个小文件打包成一个har文件

5. jvm重用

Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次。

这个功能的缺点是,开启JVM重用将一直占用使用到的task插槽,以便进行重用,直到任务完成后才能释放。

原网站

版权声明
本文为[棱镜7]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_43025525/article/details/125028802