S3 对象存储介绍与 HBase 对比

什么是 Amazon S3 对象存储?

Amazon Simple Storage Service (S3) 是一种提供高可扩展性、数据可用性、安全性和性能的对象存储服务。它允许用户随时随地存储和检索任意数量的数据。

与传统的文件系统或块存储不同，S3 将数据作为对象进行管理。每个对象都包含数据本身、元数据和一个全局唯一的标识符（Key）。这种模式非常适合存储非结构化数据，如图片、视频、日志文件、备份和数据湖的原始数据。

对象存储 (Object Store)。将数据和元数据捆绑为一个“对象”，通过唯一的 Key 访问。适合非结构化数据。

数据湖、备份与恢复、归档、静态网站托管、大数据分析的持久化存储层。

对整个对象进行 PUT / GET / DELETE 操作。不支持对对象内部数据进行修改，只能覆盖整个对象。

高吞吐量，非常适合大规模数据读取和写入。但单次操作的延迟相对较高。

强一致性。在所有S3 GET、PUT和LIST操作以及涉及对象标签、ACL和元数据的操作后，您都会收到最新的数据。

存储成本极低，按实际使用量付费，是性价比极高的数据湖存储方案。

宽列存储 (Wide-column Store)。基于行键（Row Key）排序的、稀疏的、多维度的映射表。适合结构化或半结构化数据。

需要对海量数据进行实时随机读写的在线应用，如实时推荐、用户画像、监控系统、消息中心等。

支持对行或单元格（Cell）级别的低延迟、高并发随机读、写、删除操作。

极低的读写延迟（毫秒级），专为实时随机访问优化。吞吐量取决于集群规模。

在单行操作上提供强一致性。跨行操作需要自己实现协调机制。

需要维护一个持续运行的计算集群（HMaster, RegionServer），运维和计算资源成本相对较高。