LangSmith : Align Evals, l'Évaluation LLM enfin Alignée sur l'Humain

Langchain

Dans le paysage évolutif du développement d’applications de grands modèles linguistiques (LLM), une évaluation précise et fiable est primordiale. Les développeurs itèrent fréquemment sur leurs applications, affinant les invites (prompts), mettant à jour la logique ou modifiant l’architecture. Les évaluations servent d’outil essentiel pour noter les sorties et mesurer l’impact de ces changements. Cependant, un défi persistant souligné par les équipes de développement est une divergence notable entre les scores d’évaluation automatisés et le jugement humain. Ce désalignement peut conduire à des comparaisons peu fiables et à des efforts de développement mal orientés.

Pour résoudre ce problème, LangSmith a introduit Align Evals, une nouvelle fonctionnalité conçue pour calibrer les évaluateurs “LLM-en-tant-que-juge” afin qu’ils reflètent mieux les préférences humaines. Cette innovation s’inspire des aperçus sur la construction de systèmes d’évaluation efficaces basés sur les LLM. Align Evals est actuellement disponible pour tous les utilisateurs de LangSmith Cloud, une version auto-hébergée étant prévue pour une publication plus tard cette semaine.

Traditionnellement, le raffinement des évaluateurs “LLM-en-tant-que-juge” impliquait souvent une part de conjectures. Identifier les modèles ou les incohérences dans le comportement d’un évaluateur, et comprendre précisément pourquoi les scores changent après des modifications d’invite, a été une tâche complexe. La nouvelle fonctionnalité d’alignement “LLM-en-tant-que-juge” vise à rationaliser ce processus en fournissant aux développeurs des outils améliorés pour l’itération et l’analyse.

Les fonctionnalités clés d’Align Evals incluent :

  • Itération interactive des invites : Une interface de type “bac à sable” permet aux développeurs d’affiner leurs invites d’évaluateur et de visualiser instantanément un “score d’alignement”, indiquant à quel point les évaluations du LLM correspondent aux repères humains.

  • Comparaison côte à côte : La fonctionnalité permet une comparaison directe entre les données notées par des humains et les scores générés par le LLM. Cette vue peut être triée pour identifier rapidement les cas “désalignés” où le jugement du LLM diverge significativement des attentes humaines.

  • Suivi de la ligne de base : Les développeurs peuvent enregistrer un score d’alignement de ligne de base, facilitant une comparaison claire entre leurs dernières modifications d’invite et les versions précédentes.

Le processus d’alignement au sein d’Align Evals suit un flux de travail structuré en quatre étapes :

  1. Définir les critères d’évaluation : La première étape consiste à établir des critères d’évaluation précis qui reflètent les performances souhaitées de l’application. Par exemple, dans une application de chat, les critères pourraient inclure la correction et la concision, reconnaissant qu’une réponse techniquement exacte mais excessivement verbeuse peut toujours être insatisfaisante pour les utilisateurs.

  2. Organiser les données de révision humaine : Les développeurs sélectionnent un ensemble représentatif d’exemples parmi les sorties de leur application pour la révision humaine. Cet ensemble de données doit englober un éventail de scénarios, y compris des réponses de haute qualité et sous-optimales, afin de couvrir adéquatement le spectre des sorties que l’application pourrait générer.

  3. Établir les scores de l’ensemble de référence (Golden Set) : Pour chaque critère d’évaluation défini, les réviseurs humains attribuent manuellement des scores aux exemples organisés. Ces scores attribués par des humains forment un “ensemble de référence” (golden set), servant de référence par rapport à laquelle les performances de l’évaluateur LLM seront mesurées.

  4. Itérer et aligner l’invite de l’évaluateur : Une invite initiale est élaborée pour l’évaluateur LLM. Cette invite est ensuite testée par rapport aux exemples notés par des humains. Les résultats de l’alignement fournissent des retours, guidant un processus de raffinement itératif. Par exemple, si le LLM sur-note constamment certaines réponses, l’invite peut être ajustée pour inclure des critères négatifs plus clairs. Cette approche itérative est cruciale pour améliorer le score d’alignement de l’évaluateur.

À l’avenir, LangSmith prévoit d’améliorer davantage les capacités d’évaluation. Les développements futurs devraient inclure des outils d’analyse pour suivre les performances de l’évaluateur au fil du temps, offrant des aperçus plus approfondis de leur évolution. De plus, la plateforme vise à introduire l’optimisation automatique des invites, où le système peut générer des variations d’invites pour améliorer davantage l’alignement.