AI EVALS:
¿NUESTRO SISTEMA BASADO EN IA FUNCIONA REALMENTE BIEN?
Webinar
Miércoles, 18 de febrero
17.30 CET
La velocidad con la que vamos construyendo complejos sistemas basados en LLMs (Large Language Models) es cada vez mayor. Ya no podemos conformarnos con tirar un prompt y ver «qué tal responde». O validar la respuesta del LLM de forma subjetiva, a sensaciones. Llegará un momento que una respuesta válida pero no correcta provocará efectos indeseados.
En esta formación aprenderemos sobre AI Evals (evaluaciones de IA): qué son, qué papel juegan y, sobre todo, cómo aplicarlo de forma práctica en nuestro día a día desarrollando. Repasaremos técnicas sencillas como reglas simples hasta usar LLMs como jueces o reglas estadísticas.
¿Cómo lo haremos? Iremos viendo un ejemplo práctico y ejecutando respuestas de LLM y código en tiempo real, para poder ver cómo se diseña una evaluación de verdad, como categoriza una respuesta, cómo encajan en el ciclo de vida de un sistema basado en LLMs y cómo poder combinarlas.
QUÉ VEREMOS EN EL WEBINAR
Contexto AI Evals: qué es, por qué y para qué
Técnicas de evaluación: uso de reglas
Métricas: Machine Learning, ROUGE y BLEU
LLM como juez
HITL (Human-In-The-Loop)
Comparación de técnicas
El ciclo de vida de una evaluación
Evaluación: ¿cuándo hacerla?, ¿qué técnica uso?
PERFIL DEL PONENTE
Guillermo Rocha es Engineering Manager, apasionado por la gestión de equipos, proyectos, productos y sistemas. Buscando siempre la mejora continua en cualquiera de ellos.