Saltar al contenido principal
El Agent Experience Score mide qué tan bien los agentes de IA implementan Auth0 en diferentes modelos y frameworks. Le permite comparar las puntuaciones actuales de agentes que implementan servicios y funcionalidades de Auth0, como la autenticación multifactor (MFA) o Auth0 Actions, en entornos de desarrollo y pruebas, para evaluar cómo las herramientas de Auth0 mejoran el rendimiento de los agentes. Use este recurso para conocer la metodología de puntuación, incluido cómo se calculan las puntuaciones, qué dimensiones se miden y cómo se asignan las calificaciones.

Especificaciones de las pruebas

Los agentes de IA — Claude Code, GitHub Copilot y Gemini CLI — ejecutan tareas de integración con Auth0 en entornos de desarrollo aislados. Cada agente usa las mismas herramientas que usaría un desarrollador en un entorno real: un espacio de trabajo, una shell y herramientas para archivos como Auth0 CLI. Los prompts son breves y realistas: “agrega autenticación a mi aplicación de Next.js”, no recetas paso a paso. Cada modelo se prueba con y sin herramientas de Auth0 (MCP Server y Agent Skills). La diferencia entre esos resultados es el impacto medible de las herramientas de IA de Auth0 en la experiencia del desarrollador.

Dimensiones de evaluación

Cada ejecución se evalúa en 7 dimensiones, divididas en dos categorías. Cuatro dimensiones evalúan de principio a fin el proceso del agente con herramientas de Auth0. Tres dimensiones evalúan el resultado final. Cada dimensión recibe una puntuación individual de 0 a 100 y, después, se pondera y se combina para obtener la puntuación global.
DimensiónCategoríaDescripción
Fricción de configuraciónProcesoPuntuación determinada por la capacidad del agente para completar la tarea de forma autónoma. Si el agente se detuvo para hacer preguntas o encontró errores, la puntuación disminuyó.
Velocidad de configuraciónProcesoPuntuación determinada por el tiempo de ejecución activa del agente. Los resultados son comparables entre entornos.
EficienciaProcesoPuntuación determinada por la cantidad de llamadas a herramientas necesarias para completar la tarea. Menos llamadas a herramientas implican menos costo y menos complejidad.
Recuperación ante erroresProcesoPuntuación determinada por errores de infraestructura (límites de frecuencia, tiempos de espera) que interrumpieron la ejecución.
CorrecciónResultadoPuntuación determinada por si el código generado importa paquetes reales, llama a métodos reales y conecta correctamente los componentes.
AlucinaciónResultadoPuntuación determinada por si el agente inventó paquetes que no existen o usó variantes de SDK incorrectas.
SeguridadResultadoPuntuación determinada por si el agente dejó secretos codificados de forma fija, almacenó tokens de forma insegura o incluyó credenciales en el código fuente.

Calificaciones

Las puntuaciones generales se corresponden con calificaciones por letras:
CalificaciónPuntuación mínimaDescripción
A90Lista para producción. Problemas mínimos.
B75Sólida, pero con algunos aspectos por corregir.
C60Utilizable, pero necesita pulirse.
D40Problemas importantes.
F< 40No es útil — es más rápido empezar desde cero.
Las calificaciones se han calibrado para ajustarse a la intuición de los desarrolladores. Una puntuación de 91 debería sentirse como un código que aceptarías con una revisión mínima. Una puntuación de 55 debería sentirse como algo que requiere un trabajo considerable para corregirse.

Validación de resultados

Cada evaluador verifica el código generado, no la prosa ni las explicaciones. Los evaluadores comprueban que el código compile, importe paquetes reales, invoque métodos reales del SDK y no introduzca vulnerabilidades de seguridad. Los resultados se validan en varios niveles:
  • Comprobaciones de presencia: Los símbolos del SDK, las importaciones y las claves de configuración requeridos están presentes en el resultado.
  • Detección de alucinaciones: Se detectan paquetes inventados, variantes incorrectas del SDK y métodos de API inexistentes.
  • Comprobaciones de seguridad: Se marcan las credenciales codificadas de forma fija, los tokens almacenados de forma insegura y los secretos en el código fuente.
  • Validación estructural: El código está correctamente ensamblado: los componentes adecuados en los archivos correctos, los hooks del ciclo de vida gestionados y el middleware en el orden correcto.
  • Corrección de versión: El agente usa las API actuales, no patrones obsoletos (solo se comprueba cuando el agente tiene acceso a la documentación actual).
  • Revisión integral: Un juez de LLM evalúa la corrección general de la implementación.

Coste y tiempo estimados

La página de resultados muestra el coste y el tiempo estimados para cada configuración. Estos valores representan una única ejecución de evaluación con Auth0 MCP + Skills habilitados.

Costo estimado

El costo se calcula a partir del total de tokens consumidos durante la ejecución de la evaluación (tokens de entrada + tokens de salida), multiplicado por el precio por token publicado por el proveedor del modelo. Auth0 no cobra por ejecutar evaluaciones; el costo refleja lo que usted pagaría a su proveedor de modelos por un uso equivalente de tokens. El precio de los tokens varía según el modelo y el proveedor. Para consultar las tarifas actuales, consulte la página de precios de su proveedor:

Tiempo estimado

El tiempo es la duración real de la ejecución de la evaluación, desde el envío del prompt hasta el resultado final. Incluye toda la actividad del agente: leer archivos, hacer llamadas a herramientas, esperar respuestas de la API y escribir código. El tiempo puede variar en función de lo siguiente:
  • La latencia de la API del proveedor del modelo y los límites de frecuencia
  • La cantidad de llamadas a herramientas necesarias (varía según la complejidad de la tarea)
  • Las condiciones de red entre el entorno de evaluación y el proveedor del modelo
  • La profundidad de la cola y la carga del proveedor
El tiempo no está normalizado entre proveedores. Un tiempo menor refleja tanto la eficiencia del modelo como el rendimiento de la infraestructura del proveedor.

Más información