Cloudian: Le stockage prêt pour l'IA face aux exigences de données

2025-08-06T04:00:00.000ZNews

L'intelligence artificielle transforme rapidement la manière dont les entreprises gèrent et accèdent aux données, exposant des limitations significatives dans les systèmes de stockage traditionnels. Conçues pour des commandes plus simples et séquentielles provenant d'un nombre limité d'utilisateurs, ces architectures plus anciennes peinent à suivre le rythme de l'IA moderne, qui exige un accès continu et parallèle à de vastes ensembles de données par des millions d'agents. La complexité inhérente et la structure à plusieurs niveaux des systèmes hérités créent des goulots d'étranglement, ralentissant le flux de données critiques vers les puissantes unités de traitement graphique (GPU) qui alimentent les calculs d'IA.

Pour relever ce défi, Cloudian, cofondée par les anciens élèves du MIT Michael Tso et Hiroshi Ohta, a développé une solution de stockage évolutive spécialement conçue pour l'ère de l'IA. Leur système rationalise le flux de données entre le stockage et les modèles d'IA en appliquant le calcul parallèle directement au stockage des données. Cette approche innovante consolide les fonctions et les données d'IA sur une plateforme unique, permettant des transferts directs et à haute vitesse entre le stockage et les GPU et CPU, réduisant ainsi la complexité et la latence qui entravent les performances de l'IA.

La plateforme intégrée de stockage et de calcul de Cloudian simplifie le développement d'outils d'IA à l'échelle commerciale, fournissant aux entreprises une base de données robuste capable de supporter la croissance exponentielle de l'IA. Michael Tso souligne le rôle fondamental des données dans l'avancement de l'IA : « L'une des choses que les gens oublient à propos de l'IA, c'est qu'il s'agit avant tout de données. Vous ne pouvez pas obtenir une amélioration de 10 % des performances de l'IA avec 10 % de données en plus, ni même 10 fois plus de données — il vous faut 1 000 fois plus de données. » Il met en évidence le virage de l'industrie vers le stockage des données de manière facilement gérable, permettant que les calculs soient intégrés et exécutés dès l'arrivée des données, éliminant ainsi le besoin de déplacer de grands ensembles de données.

Le parcours de Tso vers la co-fondation de Cloudian est profondément enraciné dans ses travaux fondamentaux au MIT. En tant qu'étudiant de premier cycle dans les années 1990, il s'est plongé dans le calcul parallèle sous la direction du professeur William Dally et du professeur associé Greg Papadopoulos. Ses études supérieures avec le pionnier de l'informatique David Clark se sont concentrées sur les opérations de réseau déconnectées et intermittentes pour les systèmes distribués à grande échelle, un concept qui, selon Tso, reste central à son travail aujourd'hui.

Après le MIT, Tso a contribué aux algorithmes de synchronisation de données pour BlackBerry au laboratoire d'architecture d'Intel et a développé des spécifications pour Nokia qui ont catalysé l'industrie du téléchargement de sonneries. Il a ensuite rejoint Inktomi, une startup cofondée par Eric Brewer, ancien élève du MIT, qui a été pionnière dans la recherche et la distribution de contenu web. En 2001, Tso a cofondé Gemini Mobile Technologies, qui a construit certains des plus grands systèmes de messagerie mobile au monde pour gérer la croissance explosive des données provenant des téléphones avec appareil photo.

Constatant que la génération de données dépassait les vitesses de réseau à la fin des années 2000, Tso a reconnu qu'un changement fondamental était nécessaire. Il a conclu que « les données ont leur propre gravité », ce qui rendait peu pratique et coûteux de les déplacer constamment vers des systèmes cloud centralisés. Cette perspicacité a conduit au pivot vers un modèle de cloud distribué, où la puissance de calcul est rapprochée des données, plutôt que l'inverse. Cloudian a officiellement été lancé à partir de Gemini Mobile Technologies en 2012, se concentrant initialement sur le stockage de données évolutif, distribué et compatible avec le cloud, bien que Tso admette qu'ils n'avaient pas initialement prévu l'IA comme le cas d'utilisation ultime pour les données de périphérie.

Tso voit des parallèles frappants entre ses premières recherches au MIT et les efforts actuels de Cloudian. Il souligne que les défis des réseaux déconnectés, qu'il a explorés avec David Clark, font désormais partie intégrante de chaque scénario de calcul en périphérie (edge computing). De même, le travail du professeur Dally sur les interconnexions rapides et évolutives est évident dans l'architecture des puces NVIDIA modernes, tandis que ses collaborations avec le professeur Papadopoulos sur l'accélération des logiciels d'application avec du matériel de calcul parallèle sans réécriture extensive informent directement les efforts de Cloudian pour optimiser le flux de données pour les GPU NVIDIA.

La plateforme de Cloudian s'appuie sur une architecture de stockage d'objets, où tous les types de données – des documents aux lectures de capteurs – sont stockés sous forme d'objets uniques avec des métadonnées. Cette structure de fichier plat est très efficace pour gérer les ensembles de données massifs et non structurés répandus dans les applications d'IA. Historiquement, cependant, le stockage d'objets a fait face à des limitations pour alimenter directement les modèles d'IA, nécessitant souvent que les données soient copiées dans la mémoire de l'ordinateur, ce qui entraînait de la latence et des inefficacités énergétiques.

Dans une avancée significative en juillet, Cloudian a annoncé une extension de son système de stockage d'objets : une base de données vectorielle. Cette innovation permet de stocker les données dans un format immédiatement utilisable par les modèles d'IA. Au fur et à mesure que les données sont ingérées, Cloudian calcule leur forme vectorielle en temps réel, alimentant des outils d'IA tels que les moteurs de recommandation, les fonctions de recherche et les assistants d'IA. L'entreprise a également dévoilé un partenariat stratégique avec NVIDIA, permettant à son système de stockage de fonctionner directement avec les GPU de NVIDIA, promettant des opérations d'IA plus rapides et des coûts de calcul réduits. Tso note que NVIDIA a initié la collaboration, reconnaissant que les GPU nécessitent un approvisionnement constant et à haute vitesse de données pour fonctionner efficacement. Ce partenariat souligne la compréhension croissante qu'il est plus efficace d'amener le traitement de l'IA aux données plutôt que de déplacer des ensembles de données colossaux. Les systèmes de Cloudian intègrent de nombreuses fonctions d'IA, permettant le pré- et post-traitement des données à proximité de l'endroit où les données sont collectées et stockées.

Cloudian aide actuellement environ 1 000 entreprises dans le monde entier à extraire une plus grande valeur de leurs données. Sa clientèle diversifiée comprend de grands fabricants, des fournisseurs de services financiers, des organisations de soins de santé et des agences gouvernementales. Par exemple, un grand constructeur automobile utilise la plateforme de Cloudian avec l'IA pour prédire les besoins de maintenance de ses robots de fabrication. Cloudian soutient également des initiatives critiques telles que le stockage d'articles de recherche et de brevets pour la Bibliothèque nationale de médecine, et de séquences d'ADN de tumeurs pour la Base de données nationale sur le cancer – des ensembles de données riches que les modèles d'IA peuvent traiter pour accélérer la recherche et la découverte médicales.

Tso souligne l'impact transformateur des GPU, qui ont brisé les taux de croissance de l'informatique traditionnelle en parallélisant les opérations et en permettant des configurations en réseau. Cette échelle sans précédent pousse l'IA vers de nouveaux niveaux d'intelligence. Cependant, pour exploiter pleinement cette puissance, les GPU exigent que les données leur soient fournies à la même vitesse qu'ils calculent. Tso conclut que la seule façon d'y parvenir est de « se débarrasser de toutes les couches entre eux et vos données », un principe au cœur de l'innovation de Cloudian.

Cloudian: Le stockage prêt pour l'IA face aux exigences de données - OmegaNext Actualités IA