Cloudian的AI就绪存储:应对数据洪流,赋能智能时代
人工智能正在迅速改变企业管理和访问数据的方式,同时也暴露出传统存储系统的显著局限。这些为数量有限的用户提供更简单、顺序命令而设计的老旧架构,难以跟上现代AI的步伐。现代AI要求数百万个代理程序对海量数据集进行持续、并行访问。传统系统固有的复杂性和多层结构造成了瓶颈,减缓了关键数据流向为AI计算提供动力的强大图形处理单元(GPU)的速度。
为应对这一挑战,由麻省理工学院校友Michael Tso和Hiroshi Ohta联合创立的Cloudian,开发了一种专为AI时代设计的可扩展存储解决方案。他们的系统通过将并行计算直接应用于数据存储,从而简化了存储和AI模型之间的数据流。这种创新方法将AI功能和数据整合到单一平台,实现了存储与GPU和CPU之间的直接高速传输,从而降低了阻碍AI性能的复杂性和延迟。
Cloudian的集成存储计算平台简化了商业级AI工具的开发,为企业提供了强大的数据基础,能够支持AI的指数级增长。Michael Tso强调数据在AI发展中的基础性作用:“人们对AI的一个误解是,它完全依赖于数据。你无法通过增加10%的数据,甚至10倍的数据,来获得10%的AI性能提升——你需要1000倍的数据。”他指出,行业正在转向以易于管理的方式存储数据,从而使计算能够在数据到达时嵌入并执行,消除了移动大型数据集的需要。
Tso联合创立Cloudian的历程,深深植根于他在麻省理工学院的基础性工作。在1990年代本科期间,他在William Dally教授和Greg Papadopoulos副教授的指导下深入研究了并行计算。他与计算先驱David Clark进行的研究生学习则专注于大规模分布式系统的断开和间歇性网络操作,Tso指出这一概念至今仍是他工作的核心。
从麻省理工学院毕业后,Tso在英特尔的架构实验室为黑莓的数据同步算法做出了贡献,并为诺基亚制定了催生铃声下载行业的规范。随后,他加入了由麻省理工学院校友Eric Brewer联合创立的Inktomi,该公司是搜索和网络内容分发的先驱。2001年,Tso联合创立了Gemini Mobile Technologies,该公司构建了一些全球最大的移动消息系统,以管理来自拍照手机的爆炸性数据增长。
在2000年代后期,Tso观察到数据生成速度超过了网络速度,他意识到需要进行根本性的转变。他得出结论:“数据有其自身的引力”,因此不断将其移动到集中式云系统是不切实际且成本高昂的。这一洞察促成了向分布式云模型的转变,即计算能力被带到离数据更近的地方,而不是反过来。Cloudian于2012年正式从Gemini Mobile Technologies独立出来,最初专注于可扩展、分布式、与云兼容的数据存储,尽管Tso承认他们最初并未预见到AI会是边缘数据的最终用例。
Tso认为他早期在麻省理工学院的研究与Cloudian当前的努力之间存在惊人的相似之处。他指出,他与David Clark共同探索的断开网络挑战,现在已成为每个边缘计算场景不可或缺的一部分。同样,Dally教授关于快速、可扩展互连的工作在现代NVIDIA芯片架构中显而易见,而他与Papadopoulos教授关于在无需大量重写的情况下,利用并行计算硬件加速应用程序软件的合作,直接为Cloudian优化NVIDIA GPU数据流的努力提供了指导。
Cloudian的平台利用对象存储架构,其中所有类型的数据——从文档到传感器读数——都作为带有元数据的唯一对象进行存储。这种扁平文件结构对于管理AI应用程序中普遍存在的海量非结构化数据集非常有效。然而,历史上,对象存储在直接向AI模型馈送数据方面面临局限性,通常需要将数据复制到计算机内存中,从而导致延迟和能源效率低下。
在今年七月的一项重大进展中,Cloudian宣布对其对象存储系统进行了扩展:引入了向量数据库。这项创新允许数据以AI模型可立即使用的格式进行存储。当数据被摄入时,Cloudian会实时计算其向量形式,为推荐引擎、搜索功能和AI助手等AI工具提供支持。该公司还公布了与NVIDIA的战略合作伙伴关系,使其存储系统能够直接与NVIDIA的GPU协同工作,承诺实现更快的AI操作并降低计算成本。Tso指出,是NVIDIA发起了此次合作,认识到GPU需要持续、高速的数据供应才能高效运行。此次合作强调了日益增长的共识:将AI处理带到数据所在地,而不是移动庞大的数据集,效率更高。Cloudian的系统嵌入了许多AI功能,允许在数据收集和存储的附近进行数据预处理和后处理。
Cloudian目前在全球范围内协助约1000家公司从其数据中提取更大价值。其多元化的客户群包括大型制造商、金融服务提供商、医疗保健组织和政府机构。例如,一家主要的汽车制造商利用Cloudian的平台与AI结合,预测其制造机器人的维护需求。Cloudian还支持关键项目,如为美国国家医学图书馆存储研究文章和专利,以及为美国国家癌症数据库存储肿瘤的DNA序列——这些丰富的数据集可以由AI模型处理,以加速医学研究和发现。
Tso强调了GPU的变革性影响,它们通过并行化操作并允许网络化配置,打破了传统的计算增长率。这种前所未有的规模正在将AI推向新的智能水平。然而,为了充分利用这种力量,GPU需要以与它们计算速度相同的速度获取数据。Tso总结道,实现这一目标的唯一方法是“消除它们与数据之间的所有层”,这是Cloudian创新核心的原则。