Databricks: L'IA Agentique, jugez-la par son comportement réel

Fastcompany

Au cours des cinq dernières années, les avancées rapides dans les capacités de traitement de données et de raisonnement des modèles d’intelligence artificielle ont alimenté une quête incessante parmi les développeurs d’entreprise et industriels : construire des modèles toujours plus grands et viser des benchmarks de plus en plus ambitieux. Aujourd’hui, alors que l’IA agentique émerge comme le successeur anticipé de l’IA générative, la demande d’agents IA plus intelligents et plus nuancés s’intensifie. Pourtant, paradoxalement, la mesure prédominante de l’intelligence d’une IA reste trop souvent simpliste, liée simplement à la taille de son modèle ou au volume de ses données d’entraînement.

Databricks, entreprise d’analyse de données et d’IA, soutient que cette course aux armements actuelle de l’IA manque fondamentalement un point crucial. Dans un environnement de production, la véritable mesure de la valeur d’une IA n’est pas ce qu’elle “sait” dans un sens abstrait, mais plutôt l’efficacité de ses performances lorsque les parties prenantes en dépendent. Jonathan Frankle, scientifique en chef de l’IA chez Databricks, souligne que la confiance authentique et un retour sur investissement tangible des modèles d’IA découlent directement de leur comportement dans des environnements de production réels, et non de la simple quantité d’informations qu’ils pourraient contenir.

Contrairement aux logiciels traditionnels, qui fonctionnent selon des règles déterministes pour produire des résultats prévisibles, les modèles d’IA génèrent des résultats probabilistes. Cette caractéristique inhérente modifie fondamentalement la manière dont ils doivent être évalués. « La seule chose que vous pouvez mesurer à propos d’un système d’IA est son comportement. Vous ne pouvez pas regarder à l’intérieur. Il n’y a pas d’équivalent au code source », explique Frankle. Il soutient que si les benchmarks publics offrent un aperçu utile des capacités générales, les entreprises se fient fréquemment trop à ces métriques larges, les confondant avec des indicateurs d’applicabilité dans le monde réel.

Frankle affirme que ce qui importe vraiment, c’est une évaluation rigoureuse et continue par rapport aux données spécifiques à l’entreprise. Une telle évaluation précise est vitale pour mesurer la qualité des résultats, affiner le comportement du modèle et guider efficacement les stratégies d’apprentissage par renforcement qui permettent à l’IA de s’améliorer au fil du temps. Il critique une approche courante et informelle du déploiement de l’IA : « Aujourd’hui, les gens déploient souvent des agents en écrivant un prompt, en essayant quelques entrées, en vérifiant leurs impressions, puis en déployant. Nous ne ferions jamais cela en développement logiciel – et nous ne devrions pas le faire non plus en IA. » Cette méthodologie désinvolte, suggère-t-il, est une recette pour des performances peu fiables et un obstacle à la pleine réalisation du potentiel de l’IA.

En fin de compte, le changement d’orientation préconisé par Databricks représente une maturation de l’industrie de l’IA. Il dépasse l’attrait de la puissance de calcul brute et du volume de données pour adopter une approche plus pragmatique et axée sur la performance, où la véritable intelligence d’une IA est prouvée par ses actions fiables et bénéfiques dans le paysage complexe des opérations du monde réel.