当前位置:网站首页>【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十一)
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十一)
2022-08-03 17:13:00 【大数据研习社】
持续分享有用、有价值、精选的优质大数据面试题
致力于打造全网最全的大数据面试专题题库

101、简述Hadoop有哪些调度器?
参考答案:
hadoop中常用的调度器有三种:
1)FIFO:(hadoop2.x之前的默认调度器),它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。
2)计算能力调度器(容量调度器)Capacity schedular:(hadoop2.x之后的默认调度器)支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源进行限定。调度时,首先按照以下策略选择一个合适队列:计算每个正在运行任务数与其应该分得的计算资源之间的比值,选择一个该比值最小的队列;然后按以下策略选择队列中一个作业,按照作业优先级和提交时间顺序选择,同时考虑用户资源量限制和内存限制。
3)公平调度器Fair scheduler 同计算能力调度器类似,支持多队列多用户。每个队列的资源量可配置,同一队列中的作业公平共享队列中所有资源。
102、我们该如何选择调度器?
参考答案:
如果你的场景需要先提交的JOB限制性,那就FIFO。
如果想着大家都有机会获取到资源,就得用容量调度,公平调度。容量调度不好的地方是多个队列资源不能相互抢占,提前就把资源分走了,哪怕那个队列没有任务,所以一般都是公平调度。
FIFO调度没人单独用。公平调度支持在某个队列内部选择公平调度还是FIFO。
所以可以认为公平调度是一个混合的调度器。
103、hadoop集群可以运行的3个模式是什么?
参考答案:
(1)单机模式
(2)伪分布模式
(3)分布式
104、谈谈你对 Hadoop Streaming的认识?
参考答案:
(1)Hadoop Streaming框架最大的好处是,让任何语言编写的map, reduce程序能够在hadoop集群上运行;map/reduce程序只要遵循从标准输入stdin读,写出到标准输出stdout即可。
(2)Hadoop Streaming容易进行单机调试,通过管道前后相接的方式就可以模拟streaming, 在本地完成map/reduce程序的调试 # cat inputfile | mapper | sort | reducer > output 。
(3)streaming框架还提供了作业提交时的丰富参数控制,直接通过streaming参数,而不需要使用java语言修改;很多mapreduce的高阶功能,都可以通过steaming参数的调整来完成。
105、简述在combiner和sort分别是发生在map 端还是在reduce端?
参考答案:
Combiner 发生在map节点;sort排序发生在map和reduce阶段。
106、用mr实现怎么实现一个大表和一个小表关联,以及两个大表怎么关联?谈谈你的思路
参考答案:
(1)大小表关联用Reduce join 的分布式缓存。
(2)两个大表关联:Reduce join + BloomFilter。
107、在yarn中,一个job 的运行流程是怎样的?
参考答案:
步骤1:用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster、用户程序等。
步骤2:ResourceManager为该应用程序分配第一个Container,并与对应的NodeManager通信,要求它在这个Container中启动应用程序的ApplicationMaster。
步骤3:ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManager查看应用程序的运行状态,然后它将为各个任务申请资源,并监控他的运行状态,直到运行结束,即要重复步骤4-7。
步骤4:ApplicationMaster采用轮询的方式通过RPC协议找ResourceManager申请和领取资源。
步骤5:一旦Application申请到资源后,便与对应的NodeManager通信,要求启动任务。
步骤6:NodeManager为任务设置好运行环境,包括环境变量、JAR包、二进制程序等,然后将任务启动命令写到另一个脚本中,并通过运行该脚本启动任务。
步骤7:各个任务通过RPC协议向ApplicationMaster汇报自己的状态和进度,ApplicationMaster随时掌握各个任务的运行状态,从而可以再任务失败时重新启动任务。在应用程序运行过程中,用户可以随时通过RPC协议ApplicationMaster查询应用程序的当前运行状态。
步骤8:应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己。
108、假设HDFS数据块blocksize大小为64MB,输入类为FileInputFormat,现在有3个文件,大小分别为64KB, 65MB, 200MB,请问Hadoop框架会把这些文件拆分为多少块?总共有多少个map任务?(假设split的大小等于块的大小)
参考答案:
文件 数据块数量 map数量
64kb 1 1
65MB 2 1
200MB 4 4
109、描述一下hadoop生态圈中有哪些地方使用到了缓存机制,作用分别是什么?
参考答案:
(1)MapReduce中的shuffle过程中使用了缓存机制,map task的输出数据需要先写入内存缓冲区中,缓冲区的作用是批量收集map结果,减少磁盘IO的影响。
(2)Hbase中的缓存分了两层:MemStore 和 BlockCache,MemStore供写数据使用,BlockCache供读数据使用
110、请列出正常的hadoop集群中都分别需要启动哪些进程,他们的作用分别都是什么?请尽量列的详细一些。
参考答案:
1)NameNode :管理hdfs名字空间、数据块映射关系,配置副本策略,接受读写请求。
2)DataNode:存储数据,执行数据的读写操作。
3)ResourceManager:处理客户端请求,启动并监控ApplicationMaster,监控NodeManager,资源分配与调度。
4)NodeManager:单节点资源管理,处理来自ResourceManager和ApplicationMaster的指令。
5)Zookeeper:协调服务,实现NN RM 高可用 。
6)FailoverController(zkfc ):不断监听本机NN的状态,然后周期性的向Zookeeper发送心跳,如果当前NN关掉了,重新选举NN Active。
7)journalnode:确保两个NN元数据保持同步。
持续分享有用、有价值、精选的优质大数据面试题
致力于打造全网最全的大数据面试专题题库
边栏推荐
- 405. Convert a Number to Hexadecimal
- “LaMDA 存在种族歧视,谷歌的 AI 伦理不过是‘遮羞布’!”
- php之相似文章标题similar_text()函数使用
- 高薪程序员&面试题精讲系列132之微服务之间如何进行通信?服务熔断是怎么回事?你熟悉Hystrix吗?
- [Unity Getting Started Plan] Basic Concepts (7) - Input Manager & Input Class
- 被误解的 MVC 和被神化的 MVVM(二)
- 新特性解读 | MySQL 8.0 在线调整 REDO
- PMP备考敏捷考题的五点应对策略
- #yyds干货盘点# 面试必刷TOP101:两个链表的第一个公共结点
- [Unity Starter Plan] Making RubyAdventure01 - Player Creation & Movement
猜你喜欢

Web3 安全风险令人生畏?应该如何应对?

论文解读(JKnet)《Representation Learning on Graphs with Jumping Knowledge Networks》

CC2530_ZigBee+华为云IOT:设计一套属于自己的冷链采集系统

leetcode-每日一题899. 有序队列(思维题)

Huawei, Lenovo, BAIC, etc. were selected as the first batch of training bases for "Enterprise Digital Transformation and Security Capability Improvement" by the Ministry of Industry and Information Te

多表查询最值

企业如何选择低代码开发平台

fastposter v2.9.0 程序员必备海报生成器

11. Container With Most Water

沃尔沃:这是会“种草”的“安全感”!
随机推荐
2022爱分析· 银行数字化厂商全景报告
从MatePad Pro进化看鸿蒙OS的生态势能
phoenix创建映射表和创建索引、删除索引
JS 字符串转 GBK 编码超精简实现
LeetCode·72.编辑距离·动态规划
Selective Search学习笔记
TiKV & TiFlash accelerate complex business queries丨TiFlash application practice
酷开科技 × StarRocks:统一 OLAP 分析引擎,全面打造数字化的 OTT 模式
国内首发可视化智能调优平台,小龙带你玩转KeenTune UI
#yyds干货盘点# 面试必刷TOP101:两个链表的第一个公共结点
新特性解读 | MySQL 8.0 在线调整 REDO
sibling component communication context
基于DMS的数仓智能运维服务,知多少?
J9数字虚拟论:元宇宙的潜力:一股推动社会进步的力量
PTA递归练习
数字资产的价值激发:NFT 质押
如何直击固定资产管理的难题?
MobileVIT实战:使用MobileVIT实现图像分类
php之相似文章标题similar_text()函数使用
node connection mongoose database process