BigQuery de Google : L'IA automatise l'analyse de données avancée
Google a dévoilé une série d’améliorations significatives de son service d’entrepôt de données géré BigQuery, visant à automatiser davantage les tâches complexes d’analyse de données pour les professionnels des données en entreprise. Ces mises à jour s’appuient sur les agents d’ingénierie des données et de science des données initialement annoncés par l’hyperscaler lors de son événement annuel Google Cloud Next en avril.
L’agent d’ingénierie des données, auparavant axé sur la préparation de base des données, a évolué pour devenir une capacité complète de bout en bout. Selon Yasmeen Ahmad, chef de produit données et IA chez Google Cloud, l’agent couvre désormais la construction de pipelines, la transformation des données et le dépannage. Il peut interpréter des commandes en langage naturel tout en comprenant les schémas de données, en apprenant des métadonnées existantes et en discernant les relations entre divers actifs de données. Cela permet aux professionnels des données d’interagir avec l’agent tout au long du cycle de vie complet du pipeline de données, en demandant des tâches telles que la génération de nouveaux pipelines, la modification de ceux existants, ou même la résolution de problèmes en analysant le code et les journaux pour identifier et suggérer des correctifs.
De même, l’agent de science des données, initialement accessible via le service de notebook Jupyter gratuit et basé sur le cloud de Google, Colab, pour automatiser l’ingénierie des fonctionnalités, est désormais intégré de manière transparente dans BigQuery Notebook. Cette intégration améliore considérablement la capacité de l’agent à prendre en charge des flux de travail de science des données automatisés et de bout en bout. Il peut désormais créer des plans multi-étapes, générer et exécuter du code, raisonner sur les résultats et présenter des conclusions, rationalisant ainsi l’ensemble du processus de science des données.
Un ajout notable est l’introduction d’embeddings et de génération de vecteurs autonomes au sein de BigQuery, conçus pour aider les entreprises à préparer et indexer automatiquement des données multimodales pour la recherche vectorielle. Ahmad a précisé que “autonome” fait référence à l’automatisation du “travail lourd” souvent complexe et non différencié impliqué dans l’ingénierie des données et les MLOps. Traditionnellement, les équipes de science des données extrayaient manuellement les données, configuraient les ressources informatiques, traitaient les données par lots pour les appels d’API, puis construisaient et affinaient les index vectoriels. Cette nouvelle fonctionnalité vise à libérer ces équipes pour qu’elles se concentrent sur des activités à plus forte valeur ajoutée, telles que la sélection de modèles optimaux et la validation de leur efficacité par rapport à des résultats commerciaux spécifiques. Ahmad estime également que ces embeddings seront cruciaux pour construire une mémoire sémantique à long terme pour les agents de données.
Stephanie Walter, analyste chez HyperFrame Research, a fait écho à l’évaluation d’Ahmad, soulignant le potentiel de transformation. Elle a noté que les embeddings vectoriels autonomes convertissent les données d’entreprise non structurées et multimodales en vecteurs numériques, permettant une recherche sémantique évolutive, des comparaisons de similarité, des recommandations de contenu et la détection d’anomalies – toutes des capacités critiques pour le développement et l’accélération de solutions avancées basées sur l’IA. Walter a également souligné que les rivaux de Google, notamment Microsoft avec Azure Cognitive Search et Synapse, AWS avec Amazon OpenSearch Serverless, Cortex de Snowflake et Lakehouse AI de Databricks, offrent des capacités similaires.
Au-delà de ces améliorations d’agents, le moteur de requête IA de Google au sein de BigQuery, qui permet aux professionnels des données d’analyser simultanément des données structurées et non structurées, est passé d’une phase de test précoce à une préversion publique officielle pour tous les clients.
Enfin, Google améliore considérablement l’agent d’analyse conversationnelle au sein de Looker. Introduit lors de la conférence d’avril pour permettre aux utilisateurs professionnels d’interroger leurs données en utilisant le langage naturel, cet agent intègre désormais un nouvel interpréteur de code alimenté par Gemini. Actuellement en préversion, cet interpréteur permet aux utilisateurs professionnels de poser des questions “et si” plus complexes et basées sur des scénarios sans nécessiter de support informatique. Ahmad a expliqué que l’interpréteur peut générer du code, fournir des explications claires en langage naturel et faciliter la création de visualisations interactives. Il traite les requêtes complexes en langage naturel grâce à du code avancé et des flux de travail écrits en Python par l’agent lui-même. Cet interpréteur est également étendu à l’API d’analyse conversationnelle, qui intègre les capacités de traitement du langage naturel de Looker dans des applications et des flux de travail d’entreprise plus larges. Cette API, initialement annoncée en préversion privée à Cloud Next ’25, est désormais publiquement disponible pour tous les clients et partenaires.