当前位置:网站首页>【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十)

【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(十)

2022-08-02 16:29:00 大数据研习社

持续分享有用、有价值、精选的优质大数据面试题

致力于打造全网最全的大数据面试专题题库

91、首次启动 HDFS 时,必须对其进行格式化操作的命令?

参考答案:

        bin/hdfs namenode -format或者bin/hadoop namenode –format

92、单独启停HDFS 进程命令?

参考答案:

        1)启停NameNode

                bin/hdfs --daemon start namenode

                bin/hdfs --daemon stop namenode

        2)启停DataNode

                bin/hdfs --daemon start datanode

                bin/hdfs --daemon stop datanode

93、NameNode的主要功作用有哪些?

参考答案:

        一是管理文件系统文件的元数据信息(包括文件名称、大小、位置、属性、创建时间、修改时间等等)。

        二是维护文件到块的对应关系和块到节点的对应关系。

        三是维护用户对文件的操作信息(文件的增删改查)。

94、一个datanode 宕机,怎么恢复?

参考答案:

        Datanode宕机了后,如果是短暂的宕机,可以实现写好脚本监控,将它启动起来。如果是长时间宕机了,那么datanode上的数据应该已经被备份到其他机器了,那这台datanode就是一台新的datanode了,删除他的所有数据文件和状态文件,重新启动。

95、Hadoop 的 namenode 宕机,怎么解决?

参考答案:

        (1)先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元数据丢失,但是硬盘中的元数据应该还存在,如果只是节点挂了,重启即可。

        (2)如果是机器挂了,重启机器后看节点是否能重启,不能重启就要找到原因修复了。但是最终的解决方案应该是在设计集群的初期就考虑到这个问题,做namenode的HA。

提高容错:

        第一种方式是将持久化存储在本地硬盘的文件系统元数据备份。

        第二种方式是运行一个辅助的NameNode(Secondary Namenode)。

        第三种 zookeeper提供的高可用(ha)机制。

96、hadoop出现文件块丢失怎么处理?

参考答案:

        首先需要定位到哪的数据块丢失,可以通过查看日志进行检查和排除,找到文件块丢失的位置后,如果文件不是很重要可以直接删除,然后重新复制到集群上一份即可,如果删除不了,每一个集群都会有备份,需要恢复备份。

97、当hdfs小文件数量过多时,如何合并小文件?

参考答案:

        (1)当每个小文件数据量比较小的时候,可以通过命令的方式进行小文件的合并如:

hdfs dfs -cat hdfs://mycluster/logs/*.log | hdfs dfs -appendToFile - hdfs://mycluster/logs/largeFile.log。

        (2)当数据量比较大的时候建议使用MR进行小文件的合并。

98、hdfs 常见的数据压缩算法?

参考答案:

        (1) Gzip 压缩

        (2)Bzip2 压缩

        (3)Lzo 压缩

        (4)Snappy 压缩

99、有180的文件写入HDFS是先写128M 复制完之后再写52M 还是全部写完再复制?

参考答案:

        HDFS上在写入数据的时候,首先会对数据切块,然后从客户端到datanode形成一个管道,在至少将一个文件写入hdfs上后,表示文件写入成功,然后进行复制备份操作,所以是全部写完再复制。

100、为什么会产生YARN,它解决了什么问题?有什么优势?

参考答案:

(1)产生原因

        MapReduce存在的问题:

        1)JobTracker 单点故障。

        2)JobTracker 承受的访问压力大,影响系统的扩展性。

        3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink。

(2)解决的问题

        1)yarn 解决了JobTracker 负载过重的问题, 将MR1中JobTracker的资源管理和作业调度两个功能分开,分别由ResourceManager和ApplicationMaster进程来实现。

        2)支持更多的计算框架,MapReduce  storm  Spark  Flink都可以运行在yarn上面。

(3)优势

        1)更快地MapReduce计算。

        2)对多框架支持。

        3)框架升级更容易。

持续分享有用、有价值、精选的优质大数据面试题

致力于打造全网最全的大数据面试专题题库

原网站

版权声明
本文为[大数据研习社]所创,转载请带上原文链接,感谢
https://blog.csdn.net/dajiangtai007/article/details/125998184