当前位置:网站首页>解决小文件处过多
解决小文件处过多
2022-07-06 09:01:00 【棱镜7】
1. 使用hive自带的concatenate命令,自动合并小文件
使用方法:
2. 调整参数减少map数量
在执行map前进行小文件合并,在 mapper 中将多个文件合成一个 split 作为输入。调整split 的至少大小
3. 减少Reduce的数量
reduce 的个数决定了输出的文件的个数,所以可以调整 reduce 的个数控制 hive表的文件数量。
4. HAR归档
使用hadoop的archive将小文件归档,能够将多个小文件打包成一个har文件
5. jvm重用
Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次。
这个功能的缺点是,开启JVM重用将一直占用使用到的task插槽,以便进行重用,直到任务完成后才能释放。
边栏推荐
- Leetcode problem solving 2.1.1
- 基于B/S的网上零食销售系统的设计与实现(附:源码 论文 Sql文件)
- Global and Chinese market of bank smart cards 2022-2028: Research Report on technology, participants, trends, market size and share
- 软件负载均衡和硬件负载均衡的选择
- Connexion d'initialisation pour go redis
- LeetCode41——First Missing Positive——hashing in place & swap
- Mathematical modeling 2004b question (transmission problem)
- 英雄联盟轮播图自动轮播
- go-redis之初始化连接
- Publish and subscribe to redis
猜你喜欢

Pytest之收集用例规则与运行指定用例

Kratos战神微服务框架(一)

Redis之哨兵模式

英雄联盟轮播图自动轮播

Intel distiller Toolkit - Quantitative implementation 3

【shell脚本】——归档文件脚本

Intel distiller Toolkit - Quantitative implementation 2

Design and implementation of film and television creation forum based on b/s (attached: source code paper SQL file project deployment tutorial)

requests的深入刨析及封装调用

Full stack development of quartz distributed timed task scheduling cluster
随机推荐
一改测试步骤代码就全写 为什么不试试用 Yaml实现数据驱动?
Intel distiller Toolkit - Quantitative implementation 2
Parameterization of postman
Kratos战神微服务框架(二)
有软件负载均衡,也有硬件负载均衡,选择哪个?
QML type: overlay
什么是MySQL?MySql的学习之路是怎样的
SimCLR:NLP中的对比学习
Chapter 1 :Application of Artificial intelligence in Drug Design:Opportunity and Challenges
xargs命令的基本用法
[oc foundation framework] - < copy object copy >
为什么要数据分层
How to intercept the string correctly (for example, intercepting the stock in operation by applying the error information)
Leetcode problem solving 2.1.1
Redis之五大基础数据结构深入、应用场景
Sqlmap installation tutorial and problem explanation under Windows Environment -- "sqlmap installation | CSDN creation punch in"
Publish and subscribe to redis
Global and Chinese market of airport kiosks 2022-2028: Research Report on technology, participants, trends, market size and share
postman之参数化详解
【图的三大存储方式】只会用邻接矩阵就out了