TiDB: S3, pilier essentiel de l'ère des bases de données orientées IA

Analyticsindiamag

L’évolution rapide de l’intelligence artificielle remodèle fondamentalement les exigences imposées à l’infrastructure de données, et un leader clair émerge dans le paysage du stockage : Amazon S3. Selon Ed Huang, CTO de PingCAP, la société derrière la base de données SQL distribuée TiDB, S3 est en passe de devenir l’épine dorsale essentielle pour des solutions de bases de données évolutives et axées sur l’IA. Huang affirme que sans l’exploitation de S3, il devient presque impossible de fournir une solution flexible et rentable pour les applications d’IA.

Cette perspective est enracinée dans les défis et les exigences uniques des charges de travail d’IA modernes. Les systèmes de gestion de bases de données traditionnels, conçus principalement pour les données structurées et la cohérence transactionnelle, échouent souvent lorsqu’ils sont confrontés aux pétaoctets de données diverses et non structurées que les modèles d’IA consomment. Les applications d’IA exigent une évolutivité immense, la capacité de gérer divers types de données comme les images, la vidéo, le texte et les relevés de capteurs, ainsi que la capacité d’effectuer des analyses à haut débit, impliquant souvent des calculs complexes comme les recherches de similarité sur des vecteurs de haute dimension.

Le stockage d’objets, exemplifié par S3, répond intrinsèquement à bon nombre de ces problèmes. Son évolutivité pratiquement illimitée permet une croissance sans friction des téraoctets aux exaoctets, une caractéristique essentielle pour les ensembles de données d’IA qui ne cessent de s’étendre. De plus, l’espace d’adressage plat de S3 et son étiquetage de métadonnées flexible le rendent idéal pour la gestion des données non structurées et semi-structurées qui constituent la “base” de la plupart des flux de travail d’IA. Cette architecture se traduit également directement par des gains de coûts significatifs, car S3 propose des classes de stockage optimisées pour les données accédées à des fréquences variables, aidant à gérer les coûts de stockage immenses associés aux projets d’IA.

TiDB lui-même démontre cette synergie à travers son architecture. En tant que base de données SQL distribuée, TiDB est conçue pour les applications d’IA modernes, fournissant des analyses en temps réel et un stockage unifié, y compris pour les données vectorielles. Son offre sans serveur, TiDB Serverless, exploite spécifiquement S3 pour le stockage final des données, complétée par Amazon EBS et le stockage d’instances EC2 pour la mise en cache des données fréquemment accédées et sensibles à la latence, comme les journaux de pré-écriture (WALs) et les métadonnées. Cette approche multiniveau permet à TiDB d’atteindre à la fois des performances élevées pour les charges de travail transactionnelles et l’évolutivité rapide et rentable que S3 offre. PingCAP a noté que cette conception basée sur S3 a considérablement augmenté l’évolutivité d’un ordre de grandeur.

L’architecture de stockage et de calcul désagrégée du moteur analytique de TiDB, TiFlash, souligne davantage l’importance de S3. Les nœuds d’écriture TiFlash convertissent les données au format colonnaire et téléchargent périodiquement les mises à jour vers S3, tandis que les nœuds de calcul lisent les dernières données des nœuds d’écriture et la majeure partie des données de S3, en utilisant des caches locaux pour la performance. Cette séparation permet une mise à l’échelle indépendante des ressources de calcul et de stockage, un changement de paradigme qui optimise à la fois les performances et les coûts.

L’industrie au sens large reconnaît également le rôle central du stockage d’objets à l’ère de l’IA. Les principaux fournisseurs de cloud et solutions de stockage comme MinIO, Backblaze et Wasabi mettent l’accent sur le stockage d’objets pour les lacs de données IA/ML en raison de son évolutivité, de sa flexibilité et de sa rentabilité. Amazon Web Services (AWS) lui-même améliore continuellement S3 avec des fonctionnalités telles que la génération automatique de métadonnées et S3 Vectors, qui permettent à S3 de fonctionner directement comme une solution de stockage vectoriel, rationalisant davantage les flux de travail d’IA générative et s’intégrant de manière transparente avec des services comme Amazon Bedrock. Cela met en évidence une tendance claire de l’industrie : rapprocher l’intelligence des données, plutôt que de déplacer constamment des ensembles de données massifs.

Alors que les applications d’IA continuent de proliférer et d’exiger des volumes de données toujours croissants, les caractéristiques fondamentales de S3 – son évolutivité pratiquement illimitée, son efficacité de coûts inhérente et sa flexibilité inégalée pour divers types de données – le positionnent comme un composant indispensable de l’écosystème de bases de données orientées IA.