当前位置:网站首页>【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(三)
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(三)
2022-07-01 15:23:00 【大数据研习社】
持续分享有用、有价值、精选的优质大数据面试题
致力于打造全网最全的大数据面试专题题库

21、为什么安装 HDFS HA 模式需要自定义一个 nameservice 的名称呢?为什么 apache Hadoop 不直接以 IP 地址来解析呢,而是要在 hdfs-site.xml配置中对 nameservice 通过名称解析成相应的地址,如果采用 IP(比如keepalived)技术不是也可以实现主备切换么,那官方使用 nameservice 的优点在哪呢?
参考答案:
因为高可用集群中有两个 NameNode,一个是 Active NameNode,一个是 Standby NameNode,二者可能会发生主从切换,只有 Active NameNode可对外提供服务,所以我们无法确定到底访问哪一个 NameNode,所以需要一个 nameservice 供我们访问,当我们已 nameservice 访问 NameNode 时,客户端会自动判断哪个是 Active NameNode,减轻了用户的成本。
IP 应用运维是高可用方案,对 NameNode 还是太简单了, DataNode 要同时跟两个 NameNode 建立连接,上报数据才能快速切换,而且 NameNode主从切换的时候需要校验很多状态,比如 EditLog 是否同步等,使用 IP 的话无法判断这些。
22、HDFS 的上传和下载都是实际上都是 client 自己完成的,在课堂上老师您说删除并不是 client 自己完成的, client 将需要删除的元数据信息发送给NameNode,而后通过 NameNode 和 DataNode 心跳机制实现,前面的增删查的原理您都说了,那修改 HDFS 文件内容时的原理能帮我们分析一些吗?或者带我们查看一下源码可以吗?
参考答案:
前面的课程中老师分享过一下源码,同学们觉得太难,后来老师就没有分享,如果大家有这个需求,后边老师可以再给大家查看一下源码,并教大家一些查看分析源码的方法,帮助大家在需要的时候有个更好的理解。本来源码分享不在我们的课程范围内,老师也不是平白无故阅读源码,需要的时候才看,比如修改 HDFS 文件内容老师就没看过。
23、MapReduce 严格意义上没有组件名称,我理解它只是一个计算思想,那我们可以在 YARN 中看到 MapReduce 的计算过程的身影吗?具体在哪里看呢?
参考答案:
可以在 YARN 的 WEB UI 中查看运行过程以及运行指标,点进第一列可以查看。
24、现在随着云原生技术越来越普及,以 CNCF 组织为首的开源产品Kubernetes 越发火爆,我们后期课程是否会讲解在 Kubernetes 集群中运行大数据组件呢?可以为我们提前爆料一些内容吗?
参考答案:
目前这期有打算讲解 Flink On Kubernetes 的程序,可能会放到课程后边结合实际的案例进行讲解,便于大家理解。
25、生产环境调优 HDFS 集群参数后 CDH 该如何进行平滑重启呢?
参考答案:
(1) 降低 BlockReport 时数据规模; NameNode 处理 BR 的效率低主要原因还是每次 BR 所带的 Block 规模过大造成,所以可以通过调整 Block 数量阈值,将一次 BlockReport 分成多盘分别汇报,提高 NameNode 处理效率。可参考的参数为: dfs.blockreport.split.threshold,默认为 1,000,000,当前集群DataNode 上 Block 规模数处于 240,000 ~ 940,000,建议调整为 500,000;
(2) 当需要对全集群的 DataNode 重启操作,且规模较大(包括集群规模和数据规模)时,建议在重启 DataNode 进程之后将 NameNode 重启,避免前面的“雪崩”问题;
(3) 控制重启 DataNode 的数量;按照当前节点数据规模,如果大规模重启DataNode,可采取滚动方式,以每次 15 个实例, 单位间隔 1min 滚动重启,如果数据规模增长,需要适当调整实例个数;
26、如果发现现有集群出现数据倾斜,生产环境中 HBase 出现数据倾斜了该如何解决呢?出现数据倾斜的原因到底是什么,换句话说,导致数据倾斜的罪魁祸首到底时开发,运维还是软件自身缺陷呢?
参考答案:
导致数据倾斜的原因是因为 rowkey 设计的不合理,跟 HBase 本身关系不大,这个我们在 HBase 组件运维的时候会讲解。
27、生产环境 RowKey 改如何设计才合理呢,合理的设计 RowKey 后就一定
能避免数据倾斜吗?
参考答案:
这个我们在 HBase 组件运维的时候会讲解。
28、目前 Hadoop 官方都发布了哪些版本呢?如何区分 Hadoop 所有的发行版本中哪个是稳定版,哪个是测试版,哪个是长期支持版本呢?
参考答案:
可以查看官方文档的 Latest news,里面有具体说明,见如下方框中的 stable就是稳定的意思,至于是不是长期支持版本需要看版本的特性,这个可能需要联系官方。
29、DataXceiver 这个类的和 DataNode 有什么关系呢?网上查阅了相关资料,都说它和文件操作超租期有什么关系,但描述的都模棱两可,老师您能用大白话帮我们解答一下吗?
参考答案:
首先需要知道 DataXceiverServer 是什么, DataXceiverServer 是DataNode 上一个用于接收数据读写请求的后台工作线程,为每个数据读写请求创建一个单独的线程去处理,这里所说的线程就是 DataXceiver。
从源码上看 DataXceiver 实现了 Runnable 接口,说明它是一个线程,他包含DataXceiverServer通过查看 DataXceiver 的 run 方法,发现调用的就是 DataXceiverServer 的处理逻辑,即接收数据读写请求的后台工作线程就是 DataXceiver ,DataXceiverServer 封装了处理逻辑。
30、老师, CDH6 我们已经按照视频搭建完成了,一个 HDFS,HBase 集群能承担多大的压力如何测试呢?
参考答案:
HBase 有自带的压力测试工具 PerformanceEvaluation,具体后边可以给大家分享一些实用的资料。需要的话也可以安排时间给大家讲解一下。
持续分享有用、有价值、精选的优质大数据面试题
致力于打造全网最全的大数据面试专题题库
边栏推荐
- 深度分析数据在内存中的存储形式
- skywalking 6.4 分布式链路跟踪 使用笔记
- Flink 系例 之 TableAPI & SQL 与 MYSQL 分组统计
- Qt+pcl Chapter 6 point cloud registration ICP series 3
- Solid smart contract development - easy to get started
- TS报错 Don‘t use `object` as a type. The `object` type is currently hard to use
- Wechat applet 02 - Implementation of rotation map and picture click jump
- [lock] redis lock handles concurrency atomicity
- S32K1xx 微控制器的硬件設計指南
- A unifying review of deep and shallow anomaly detection
猜你喜欢

Markdown编辑器使用基本语法

Junda technology - wechat cloud monitoring scheme for multiple precision air conditioners

The difference between arrow function and ordinary function in JS

【STM32学习】 基于STM32 USB存储设备的w25qxx自动判断容量检测

重回榜首的大众,ID依然乏力

The solution to turn the newly created XML file into a common file in idea

MySQL 服务正在启动 MySQL 服务无法启动解决途径

Basic operations of SQL database

leetcode:329. Longest increasing path in matrix

微信网页订阅消息实现
随机推荐
Ubuntu 14.04下搭建MySQL主从服务器
DirectX repair tool v4.1 public beta! [easy to understand]
采集数据工具推荐,以及采集数据列表详细图解流程
The markdown editor uses basic syntax
Qt+pcl Chapter 9 point cloud reconstruction Series 2
TypeScript: let
Qt+pcl Chapter 6 point cloud registration ICP series 4
雷神科技冲刺北交所,拟募集资金5.4亿元
idea中新建的XML文件变成普通文件的解决方法.
Redis installation and setting up SSDB master-slave environment under Ubuntu 14.04
What data capabilities do data product managers need to master?
MySQL 服务正在启动 MySQL 服务无法启动解决途径
【锁】Redis锁 处理并发 原子性
竣达技术丨多台精密空调微信云监控方案
Summary of point cloud reconstruction methods I (pcl-cgal)
SQL常用的四个排序函数梳理
go-zero实战demo(一)
这3款在线PS工具,得试试
Basic use process of cmake
[Cloudera][ImpalaJDBCDriver](500164)Error initialized or created transport for authentication