当前位置:网站首页>解决小文件处过多
解决小文件处过多
2022-07-06 09:01:00 【棱镜7】
1. 使用hive自带的concatenate命令,自动合并小文件
使用方法:
2. 调整参数减少map数量
在执行map前进行小文件合并,在 mapper 中将多个文件合成一个 split 作为输入。调整split 的至少大小
3. 减少Reduce的数量
reduce 的个数决定了输出的文件的个数,所以可以调整 reduce 的个数控制 hive表的文件数量。
4. HAR归档
使用hadoop的archive将小文件归档,能够将多个小文件打包成一个har文件
5. jvm重用
Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次。
这个功能的缺点是,开启JVM重用将一直占用使用到的task插槽,以便进行重用,直到任务完成后才能释放。
边栏推荐
- Advance Computer Network Review(1)——FatTree
- 基于B/S的影视创作论坛的设计与实现(附:源码 论文 sql文件 项目部署教程)
- Kratos战神微服务框架(一)
- Activiti7工作流的使用
- Minio distributed file storage cluster for full stack development
- Once you change the test steps, write all the code. Why not try yaml to realize data-driven?
- Sentinel mode of redis
- Redis之哨兵模式
- go-redis之初始化連接
- CUDA implementation of self defined convolution attention operator
猜你喜欢

Redis connection redis service command

Redis core configuration

Redis之哨兵模式

IJCAI2022论文合集(持续更新中)

LeetCode41——First Missing Positive——hashing in place & swap

Kratos ares microservice framework (II)

软件负载均衡和硬件负载均衡的选择

Pytest参数化你不知道的一些使用技巧 /你不知道的pytest

Solve the problem of inconsistency between database field name and entity class attribute name (resultmap result set mapping)

Pytest parameterization some tips you don't know / pytest you don't know
随机推荐
The order of include header files and the difference between double quotation marks "and angle brackets < >
Sqlmap installation tutorial and problem explanation under Windows Environment -- "sqlmap installation | CSDN creation punch in"
Global and Chinese markets of SERS substrates 2022-2028: Research Report on technology, participants, trends, market size and share
postman之参数化详解
Chapter 1 :Application of Artificial intelligence in Drug Design:Opportunity and Challenges
Solve the problem of inconsistency between database field name and entity class attribute name (resultmap result set mapping)
英雄联盟轮播图手动轮播
Selenium+Pytest自动化测试框架实战(下)
[oc foundation framework] - < copy object copy >
Advanced Computer Network Review(5)——COPE
MySQL数据库优化的几种方式(笔面试必问)
五层网络体系结构
LeetCode41——First Missing Positive——hashing in place & swap
Lua script of redis
使用标签模板解决用户恶意输入的问题
面渣逆袭:Redis连环五十二问,图文详解,这下面试稳了
Kratos ares microservice framework (III)
Global and Chinese market of electric pruners 2022-2028: Research Report on technology, participants, trends, market size and share
Global and Chinese markets for small seed seeders 2022-2028: Research Report on technology, participants, trends, market size and share
为拿 Offer,“闭关修炼,相信努力必成大器