TiDB:S3如何成为AI优先数据库时代的基石

Analyticsindiamag

人工智能的快速发展正在从根本上重塑对数据基础设施的需求,而存储领域的一个明显领导者正在崭露头角:Amazon S3。据分布式SQL数据库TiDB背后的公司PingCAP的首席技术官黄东旭(Ed Huang)表示,S3正迅速成为可扩展的AI优先数据库解决方案不可或缺的支柱。黄东旭断言,如果不利用S3,为AI应用提供灵活且经济高效的解决方案几乎是不可能实现的。

这一观点植根于现代AI工作负载的独特挑战和要求。传统的数据库管理系统主要为结构化数据和事务一致性而设计,在面对AI模型所消耗的数PB多样化非结构化数据时往往力不从心。AI应用需要极高的可扩展性,处理图像、视频、文本和传感器读数等各种数据类型的能力,以及高吞吐量分析能力,这通常涉及高维向量上的相似性搜索等复杂计算。

以S3为代表的对象存储固有地解决了这些痛点。其几乎无限的可扩展性允许从TB到EB的无摩擦增长,这对于不断增长的AI数据集来说是一个关键特性。此外,S3的扁平地址空间和灵活的元数据标记使其非常适合管理构成大多数AI工作流“基础”的非结构化和半结构化数据。这种架构也直接转化为显著的成本效益,因为S3为不同访问频率的数据提供了优化的存储类别,有助于管理与AI项目相关的巨大存储成本。

TiDB自身通过其架构展示了这种协同效应。作为分布式SQL数据库,TiDB专为现代AI应用设计,提供实时分析和统一存储,包括向量数据。其无服务器产品TiDB Serverless,专门利用S3进行最终数据存储,并辅以Amazon EBS和EC2实例存储来缓存频繁访问和延迟敏感的数据,如预写日志(WALs)和元数据。这种多层方法使TiDB既能实现事务性工作负载的高性能,又能获得S3提供的快速、经济高效的可扩展性。PingCAP指出,这种S3支持的设计已将可扩展性显著提升了一个数量级。

TiDB分析引擎TiFlash的存储计算分离架构进一步强调了S3的重要性。TiFlash写入节点将数据转换为列式格式并定期将更新上传到S3,而计算节点则从写入节点读取最新数据,并从S3读取大部分数据,同时利用本地缓存以提高性能。这种分离允许计算和存储资源独立扩展,这是一种优化性能和成本的范式转变。

更广泛的行业也认识到对象存储在AI时代的关键作用。MinIO、Backblaze和Wasabi等主要云提供商和存储解决方案都强调对象存储对于AI/ML数据湖的重要性,原因在于其可扩展性、灵活性和成本效益。Amazon Web Services (AWS) 本身也在不断增强S3的功能,例如自动元数据生成和S3 Vectors,这使得S3能够直接作为向量存储解决方案,进一步简化生成式AI工作流并与Amazon Bedrock等服务无缝集成。这突出了一种清晰的行业趋势:将智能更接近数据,而不是不断移动大量数据集。

随着AI应用的持续普及以及对数据量需求的不断增长,S3的基本特性——其几乎无限的可扩展性、固有的成本效益以及对多样化数据类型的无与伦比的灵活性——使其成为AI优先数据库生态系统中不可或缺的组成部分。