Hadoop生态系统核心技术指南

HDFS 分布式文件系统

核心原理

主从架构

NameNode 管理元数据（文件目录、块位置），DataNode 存储实际数据块，Secondary NameNode 定期合并元数据快照（非热备）。

数据分块与副本

默认128MB块大小（平衡寻址与传输效率），三副本策略（跨机架存储：同机架2份 + 跨机架1份）。

机架感知

通过脚本配置节点机架位置，优化数据本地性读取，减少跨机架网络开销。

容错机制

DataNode心跳检测、故障节点自动副本恢复，校验和验证数据完整性。

开发实践

HDFS Shell 操作命令
                                 复制
                            

                        # 创建目录
                        hadoop fs -mkdir /test              
                        
                        # 上传文件
                        hadoop fs -put local.txt /test      
                        
                        # 修改副本数
                        hadoop fs -setrep 2 /test/file.txt 
                    

使用FileSystem类操作HDFS，注意配置Configuration对象中的集群地址。

面试高频题

Q：HDFS为何不适合小文件存储？

→ 答：大量小文件耗尽NameNode内存（元数据常驻内存），且寻址时间远超读取时间。

Q：写数据流程中DataNode故障如何处理？

→ 答：客户端检测超时，通知NameNode剔除故障节点，重新分配新DataNode并恢复副本。

计算框架对比：MapReduce vs Spark vs Flink

组件	原理	适用场景	开发优化
MapReduce	分治思想：Map阶段并行处理分片 → Shuffle排序 → Reduce聚合结果	离线批处理（TB级日志分析）	避免小文件，合并Combine函数减少Shuffle量
Spark	基于RDD内存计算：DAG调度优化迭代任务，支持批/流/图处理	迭代计算（机器学习）、交互查询	缓存RDD复用数据，调节并行度避免OOM
Flink	流处理优先：事件时间语义、状态管理、Exactly-Once语义	实时风控、CEP复杂事件处理	配置Checkpoint保存状态，背压机制调优

面试高频题

Q：Spark与Flink在流处理上的本质区别？

→ 答：Spark Streaming微批处理（高吞吐低实时性），Flink原生逐事件处理（亚秒级延迟）。

数据仓库与数据库

Hive

原理：将SQL（HQL）转为MapReduce/Tez/Spark任务，元数据存于RDBMS（如MySQL），数据存HDFS。

优化：分区表（PARTITION BY）、分桶表（CLUSTERED BY）加速查询；向量化查询减少CPU开销。

HBase

原理：LSM-Tree存储结构，Region分片存储，ZooKeeper协调RegionServer；强一致读写，适用随机访问场景。

开发：RowKey设计避免热点（如加盐哈希），布隆过滤器加速查询。

StarRocks

原理：MPP架构 + 列式存储，向量化引擎加速OLAP；兼容MySQL协议，支持实时导入Kafka数据。

面试高频题

Q：Hive与HBase的存储设计差异？

→ 答：Hive行式存储（分析全字段），HBase列式存储（高效聚合、稀疏数据）。

消息系统与实时处理

Kafka

原理：生产者-消费者模型，Topic分区多副本存储；高吞吐（百万级/秒）依赖顺序磁盘I/O和零拷贝技术。

开发：ISR副本同步机制保障数据可靠，acks=all实现强一致性。

Flink+Kafka实时链路

graph LR A[Kafka] --> B(Flink实时计算) --> C{HBase/StarRocks} B --> D[实时告警]

要点：Kafka作为数据缓冲层，Flink处理窗口聚合，结果写入OLAP引擎。

面试高频题

Q：Kafka如何保证消息不丢失？

→ 答：生产者端acks=all，Broker多副本同步，消费者提交Offset前业务逻辑完成。

资源调度与协调

YARN

解耦资源管理与任务调度，ResourceManager分配Container，NodeManager监控资源。

多框架支持：Spark/Flink任务可提交到YARN集群。

开发实践：YARN队列资源配置（capacity-scheduler.xml），避免资源抢占。

ZooKeeper

分布式协调服务，通过Zab协议实现选举（如HBase Master选举），监听节点状态变化。

典型架构与面试场景题

离线数仓流程

graph TD A[Flume采集日志] --> B(Kafka) B --> C{Hive/Spark批处理} C --> D[报表BI]

实时推荐场景

Flink消费用户行为流 → 调用Spark ML模型实时预测 → 结果写入Kafka推前端。

故障排查场景题

Q：HDFS磁盘使用不均如何解决？

→ 答：启用Balancer（hdfs balancer），调整机架感知策略或手动迁移数据块。

组件对比速查表

组件	核心优势	局限性	替代方案
HDFS	高容错、廉价硬件存储	小文件支持差	对象存储（S3）
Spark	内存计算迭代快	流处理延迟高	Flink
HBase	毫秒级KV查询	无SQL支持	Cassandra
Kafka	高吞吐削峰	运维复杂度高	Pulsar

学习建议

此整理覆盖原理、开发、面试三位一体，建议结合官方文档实操深化理解。可根据目标岗位侧重（如数仓侧重Hive/Spark，实时侧重Flink/Kafka）针对性强化。