当前位置:网站首页>【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(三)
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(三)
2022-07-01 15:23:00 【大数据研习社】
持续分享有用、有价值、精选的优质大数据面试题
致力于打造全网最全的大数据面试专题题库
21、为什么安装 HDFS HA 模式需要自定义一个 nameservice 的名称呢?为什么 apache Hadoop 不直接以 IP 地址来解析呢,而是要在 hdfs-site.xml配置中对 nameservice 通过名称解析成相应的地址,如果采用 IP(比如keepalived)技术不是也可以实现主备切换么,那官方使用 nameservice 的优点在哪呢?
参考答案:
因为高可用集群中有两个 NameNode,一个是 Active NameNode,一个是 Standby NameNode,二者可能会发生主从切换,只有 Active NameNode可对外提供服务,所以我们无法确定到底访问哪一个 NameNode,所以需要一个 nameservice 供我们访问,当我们已 nameservice 访问 NameNode 时,客户端会自动判断哪个是 Active NameNode,减轻了用户的成本。
IP 应用运维是高可用方案,对 NameNode 还是太简单了, DataNode 要同时跟两个 NameNode 建立连接,上报数据才能快速切换,而且 NameNode主从切换的时候需要校验很多状态,比如 EditLog 是否同步等,使用 IP 的话无法判断这些。
22、HDFS 的上传和下载都是实际上都是 client 自己完成的,在课堂上老师您说删除并不是 client 自己完成的, client 将需要删除的元数据信息发送给NameNode,而后通过 NameNode 和 DataNode 心跳机制实现,前面的增删查的原理您都说了,那修改 HDFS 文件内容时的原理能帮我们分析一些吗?或者带我们查看一下源码可以吗?
参考答案:
前面的课程中老师分享过一下源码,同学们觉得太难,后来老师就没有分享,如果大家有这个需求,后边老师可以再给大家查看一下源码,并教大家一些查看分析源码的方法,帮助大家在需要的时候有个更好的理解。本来源码分享不在我们的课程范围内,老师也不是平白无故阅读源码,需要的时候才看,比如修改 HDFS 文件内容老师就没看过。
23、MapReduce 严格意义上没有组件名称,我理解它只是一个计算思想,那我们可以在 YARN 中看到 MapReduce 的计算过程的身影吗?具体在哪里看呢?
参考答案:
可以在 YARN 的 WEB UI 中查看运行过程以及运行指标,点进第一列可以查看。
24、现在随着云原生技术越来越普及,以 CNCF 组织为首的开源产品Kubernetes 越发火爆,我们后期课程是否会讲解在 Kubernetes 集群中运行大数据组件呢?可以为我们提前爆料一些内容吗?
参考答案:
目前这期有打算讲解 Flink On Kubernetes 的程序,可能会放到课程后边结合实际的案例进行讲解,便于大家理解。
25、生产环境调优 HDFS 集群参数后 CDH 该如何进行平滑重启呢?
参考答案:
(1) 降低 BlockReport 时数据规模; NameNode 处理 BR 的效率低主要原因还是每次 BR 所带的 Block 规模过大造成,所以可以通过调整 Block 数量阈值,将一次 BlockReport 分成多盘分别汇报,提高 NameNode 处理效率。可参考的参数为: dfs.blockreport.split.threshold,默认为 1,000,000,当前集群DataNode 上 Block 规模数处于 240,000 ~ 940,000,建议调整为 500,000;
(2) 当需要对全集群的 DataNode 重启操作,且规模较大(包括集群规模和数据规模)时,建议在重启 DataNode 进程之后将 NameNode 重启,避免前面的“雪崩”问题;
(3) 控制重启 DataNode 的数量;按照当前节点数据规模,如果大规模重启DataNode,可采取滚动方式,以每次 15 个实例, 单位间隔 1min 滚动重启,如果数据规模增长,需要适当调整实例个数;
26、如果发现现有集群出现数据倾斜,生产环境中 HBase 出现数据倾斜了该如何解决呢?出现数据倾斜的原因到底是什么,换句话说,导致数据倾斜的罪魁祸首到底时开发,运维还是软件自身缺陷呢?
参考答案:
导致数据倾斜的原因是因为 rowkey 设计的不合理,跟 HBase 本身关系不大,这个我们在 HBase 组件运维的时候会讲解。
27、生产环境 RowKey 改如何设计才合理呢,合理的设计 RowKey 后就一定
能避免数据倾斜吗?
参考答案:
这个我们在 HBase 组件运维的时候会讲解。
28、目前 Hadoop 官方都发布了哪些版本呢?如何区分 Hadoop 所有的发行版本中哪个是稳定版,哪个是测试版,哪个是长期支持版本呢?
参考答案:
可以查看官方文档的 Latest news,里面有具体说明,见如下方框中的 stable就是稳定的意思,至于是不是长期支持版本需要看版本的特性,这个可能需要联系官方。
29、DataXceiver 这个类的和 DataNode 有什么关系呢?网上查阅了相关资料,都说它和文件操作超租期有什么关系,但描述的都模棱两可,老师您能用大白话帮我们解答一下吗?
参考答案:
首先需要知道 DataXceiverServer 是什么, DataXceiverServer 是DataNode 上一个用于接收数据读写请求的后台工作线程,为每个数据读写请求创建一个单独的线程去处理,这里所说的线程就是 DataXceiver。
从源码上看 DataXceiver 实现了 Runnable 接口,说明它是一个线程,他包含DataXceiverServer通过查看 DataXceiver 的 run 方法,发现调用的就是 DataXceiverServer 的处理逻辑,即接收数据读写请求的后台工作线程就是 DataXceiver ,DataXceiverServer 封装了处理逻辑。
30、老师, CDH6 我们已经按照视频搭建完成了,一个 HDFS,HBase 集群能承担多大的压力如何测试呢?
参考答案:
HBase 有自带的压力测试工具 PerformanceEvaluation,具体后边可以给大家分享一些实用的资料。需要的话也可以安排时间给大家讲解一下。
持续分享有用、有价值、精选的优质大数据面试题
致力于打造全网最全的大数据面试专题题库
边栏推荐
- Flink 系例 之 TableAPI & SQL 与 MYSQL 分组统计
- Survey of intrusion detection systems:techniques, datasets and challenges
- 选择在长城证券上炒股开户可以吗?安全吗?
- 《QT+PCL第六章》点云配准icp系列3
- Tableapi & SQL and Kafka message insertion in Flink
- 智能运维实战:银行业务流程及单笔交易追踪
- Introduction to MySQL audit plug-in
- 数据产品经理需要掌握哪些数据能力?
- The difference between arrow function and ordinary function in JS
- 【天线】【3】CST一些快捷键
猜你喜欢
Introduction to MySQL audit plug-in
Filter &(登录拦截)
点云重建方法汇总一(PCL-CGAL)
Summary of point cloud reconstruction methods I (pcl-cgal)
Returning to the top of the list, the ID is still weak
【目标跟踪】|模板更新 时间上下文信息(UpdateNet)《Learning the Model Update for Siamese Trackers》
Recommendation of data acquisition tools and detailed graphic process of data acquisition list
leetcode:329. Longest increasing path in matrix
SQL常用的四个排序函数梳理
The first technology podcast month will be broadcast soon
随机推荐
swiper 轮播图,最后一张图与第一张图无缝衔接
SQL常用的四个排序函数梳理
Task.Run(), Task.Factory.StartNew() 和 New Task() 的行为不一致分析
Wechat applet 03 - text is displayed from left to right, and the block elements in the line are centered
How to realize clock signal frequency division?
Qt+pcl Chapter 6 point cloud registration ICP series 3
这3款在线PS工具,得试试
IDEA全局搜索快捷键(ctrl+shift+F)失效修复
Wechat applet 02 - Implementation of rotation map and picture click jump
The data in the database table recursively forms a closed-loop data. How can we get these data
MySQL service is starting. MySQL service cannot be started. Solution
OpenSSL client programming: SSL session failure caused by an insignificant function
The difference between arrow function and ordinary function in JS
《QT+PCL第六章》点云配准icp系列5
Solid smart contract development - easy to get started
微信小程序03-文字一左一右显示,行内块元素居中
数字化转型:数据可视化赋能销售管理
基于价值量化的需求优先级排序方法
微信小程序02-轮播图实现与图片点击跳转
竣达技术丨多台精密空调微信云监控方案