LangSmith: Calibra la Evaluación de LLM a Preferencias Humanas con Align Evals
En el panorama cambiante del desarrollo de aplicaciones de modelos de lenguaje grandes (LLM), una evaluación precisa y fiable es primordial. Los desarrolladores iteran con frecuencia en sus aplicaciones, refinando prompts, actualizando la lógica o alterando la arquitectura. Las evaluaciones sirven como una herramienta crítica para calificar las salidas y medir el impacto de estos cambios. Sin embargo, un desafío persistente destacado por los equipos de desarrollo es una notable discrepancia entre las puntuaciones de evaluación automatizadas y el juicio humano. Esta desalineación puede llevar a comparaciones poco fiables y a esfuerzos de desarrollo mal dirigidos.
Para abordar este problema, LangSmith ha introducido Align Evals, una nueva característica diseñada para calibrar los evaluadores de LLM-como-juez para que reflejen mejor las preferencias humanas. Esta innovación se inspira en las percepciones sobre la construcción de sistemas de evaluación efectivos basados en LLM. Align Evals está actualmente disponible para todos los usuarios de LangSmith Cloud, con una versión autoalojada programada para su lanzamiento a finales de esta semana.
Tradicionalmente, refinar los evaluadores de LLM-como-juez a menudo ha implicado un grado de conjetura. Identificar patrones o inconsistencias en el comportamiento de un evaluador, y comprender precisamente por qué las puntuaciones cambian después de las modificaciones del prompt, ha sido una tarea compleja. La nueva función de Alineación de LLM-como-juez tiene como objetivo simplificar este proceso proporcionando a los desarrolladores herramientas mejoradas para la iteración y el análisis.
Las funcionalidades clave de Align Evals incluyen:
Iteración Interactiva de Prompts: Una interfaz similar a un “playground” permite a los desarrolladores refinar sus prompts de evaluador y ver instantáneamente una “puntuación de alineación”, indicando cuán cerca coinciden las evaluaciones del LLM con los puntos de referencia humanos.
Comparación Lado a Lado: La característica permite una comparación directa entre los datos calificados por humanos y las puntuaciones generadas por LLM. Esta vista se puede ordenar para identificar rápidamente casos “desalineados” donde el juicio del LLM diverge significativamente de las expectativas humanas.
Seguimiento de Línea Base: Los desarrolladores pueden guardar una puntuación de alineación de línea base, facilitando una clara comparación entre sus últimos cambios de prompt y versiones anteriores.
El proceso de alineación dentro de Align Evals sigue un flujo de trabajo estructurado de cuatro pasos:
-
Definir Criterios de Evaluación: El paso inicial implica establecer criterios de evaluación precisos que reflejen el rendimiento deseado de la aplicación. Por ejemplo, en una aplicación de chat, los criterios podrían incluir corrección y concisión, reconociendo que una respuesta técnicamente precisa pero excesivamente prolija aún puede ser insatisfactoria para los usuarios.
-
Curar Datos de Revisión Humana: Los desarrolladores seleccionan un conjunto representativo de ejemplos de las salidas de su aplicación para revisión humana. Este conjunto de datos debe abarcar una variedad de escenarios, incluyendo respuestas de alta calidad y subóptimas, para cubrir adecuadamente el espectro de salidas que la aplicación podría generar.
-
Establecer Puntuaciones del Conjunto Dorado: Para cada criterio de evaluación definido, los revisores humanos asignan manualmente puntuaciones a los ejemplos curados. Estas puntuaciones asignadas por humanos forman un “conjunto dorado”, sirviendo como el punto de referencia contra el cual se medirá el rendimiento del evaluador LLM.
-
Iterar y Alinear el Prompt del Evaluador: Se elabora un prompt inicial para el evaluador LLM. Este prompt se prueba luego contra los ejemplos calificados por humanos. Los resultados de la alineación proporcionan retroalimentación, guiando un proceso de refinamiento iterativo. Por ejemplo, si el LLM consistentemente sobrevalora ciertas respuestas, el prompt puede ajustarse para incluir criterios negativos más claros. Este enfoque iterativo es crucial para mejorar la puntuación de alineación del evaluador.
Mirando hacia el futuro, LangSmith planea mejorar aún más las capacidades de evaluación. Se espera que los desarrollos futuros incluyan herramientas de análisis para rastrear el rendimiento del evaluador a lo largo del tiempo, proporcionando conocimientos más profundos sobre su evolución. Además, la plataforma tiene como objetivo introducir la optimización automática de prompts, donde el sistema puede generar variaciones de prompts para mejorar aún más la alineación.