El AI Drop de la semana: ¿cómo evaluamos un agente de inteligencia artificial?

📌 El AI Drop de la semana: ¿cómo evaluamos un agente de inteligencia artificial?

Construir un agente es solo el primer paso. Saber si realmente está haciendo bien su trabajo es donde está el valor.

Hay 3 formas de evaluarlo:

Capability: ¿Entiende la instrucción completa? Si le digo “reservame un hotel pet friendly” y reserva uno que no acepta mascotas, falló antes de empezar.
Trajectory: ¿Qué camino tomó para resolver la tarea? No es solo llegar a la respuesta, es llegar de forma eficiente. Dos agentes pueden resolver lo mismo, pero uno en 3 pasos y otro en 6.
Final Response: ¿La respuesta es concreta y accionable? “Las ventas estuvieron bien” no le sirve a nadie. “Crecimiento del 20% en estas categorías, recomiendo accionar descuentos en estos segmentos” sí.

La intuición: un agente puede dar una buena respuesta final y aun así ser ineficiente en su camino. Por eso los tres se evalúan juntos. Uno solo no es suficiente. #inteligenciaartificial