Flink 介绍与 Spark 对比

什么是 Apache Flink?

Apache Flink 是一个开源的、为分布式、高性能、高可用、高准确性的数据流应用而生的流处理框架。其核心是一个真正的原生流处理引擎，这意味着它以事件（Event）为单位逐条处理数据，而不是将流切分成小批量。

Flink 以其强大的状态管理和精确的事件时间（Event Time）处理能力而闻名，能够轻松应对乱序数据和复杂的业务逻辑，为实时应用提供毫秒级的延迟和精确一次（Exactly-once）的状态一致性保证。

原生流处理 (Native Streaming)。逐条处理事件，是真正的流式计算，实现了流批一体的统一计算范式。

毫秒级。得益于其原生流处理模型，可以实现极低的端到端延迟。

非常强大。对事件时间（Event Time）的支持是其核心特性，通过 Watermark 机制能优雅地处理乱序数据。

内置且高效。提供了多种可插拔的状态后端，并通过 Checkpoint 机制实现轻量级的分布式快照，保证精确一次语义。

对延迟和计算准确性要求极高的实时场景，如实时风控、实时推荐、复杂事件处理（CEP）、实时监控等。

微批处理 (Micro-batching)。将数据流切分成一系列小的批次（DStream），以批处理的方式模拟流处理。

秒级。受限于其微批处理模型，延迟通常在数百毫秒到数秒之间。

支持。虽然也支持事件时间，但其处理乱序数据的能力和灵活性不如 Flink。

基于 RDD/DataFrame。状态管理与批次绑定，跨批次的状态管理相对复杂，不如 Flink 灵活。

对延迟不极端敏感的近实时处理、ETL 任务、以及需要与 Spark 生态（SQL, MLlib, GraphX）紧密集成的场景。