Passer au contenu principal
L’Agent Experience Score mesure dans quelle mesure les agents d’IA implémentent Auth0 selon différents modèles et frameworks. Il vous permet de comparer les scores actuels d’agents qui implémentent des services et des fonctionnalités Auth0 — comme l’authentification multifacteur (MFA) ou Auth0 Actions — dans des environnements de développement et de test, afin d’évaluer comment les outils Auth0 améliorent les performances des agents. Utilisez cette ressource pour en savoir plus sur la méthodologie de notation, notamment sur la façon dont les scores sont calculés, les dimensions mesurées et la manière dont les notes sont attribuées.

Spécifications des tests

Des agents d’IA — Claude Code, GitHub Copilot, Gemini CLI — exécutent des tâches d’intégration à Auth0 dans des environnements de développement isolés. Chaque agent utilise les mêmes outils qu’utiliserait un développeur dans un environnement réaliste : un espace de travail, un shell et des outils de gestion de fichiers comme Auth0 CLI. Les demandes sont courtes et réalistes : « ajouter l’authentification à mon application Next.js », et non des procédures détaillées étape par étape. Chaque modèle est testé avec et sans les outils Auth0 (MCP Server et Agent Skills). La différence entre ces scores représente l’impact mesurable des outils d’IA d’Auth0 sur l’expérience développeur.

Dimensions du score

Chaque exécution est évaluée selon 7 dimensions réparties en deux catégories. Quatre dimensions portent sur le processus de l’agent, de bout en bout, avec les outils Auth0. Trois dimensions évaluent le résultat final. Chaque dimension est notée individuellement de 0 à 100, puis pondérée et combinée pour produire le score global.
DimensionCatégorieDescription
Difficulté de configurationProcessusScore déterminé par la capacité de l’agent à accomplir la tâche de façon autonome. Si l’agent s’est interrompu pour poser des questions ou a rencontré des erreurs, le score a diminué.
Vitesse de configurationProcessusScore déterminé par le temps d’exécution actif de l’agent. Les résultats sont comparables d’un environnement à l’autre.
EfficacitéProcessusScore déterminé par le nombre d’appels aux outils nécessaires pour accomplir la tâche. Moins d’appels aux outils signifie moins de coûts et moins de complexité.
Reprise après erreurProcessusScore déterminé par les erreurs d’infrastructure (limites de débit, délais d’expiration) qui ont perturbé l’exécution.
ExactitudeRésultatScore déterminé selon que le code généré importe des packages existants, appelle de vraies méthodes et connecte correctement les composants.
HallucinationRésultatScore déterminé selon que l’agent a inventé des packages inexistants ou utilisé des variantes de SDK incorrectes.
SécuritéRésultatScore déterminé selon que l’agent a codé en dur des secrets, stocké des jetons de manière non sécurisée ou inclus des identifiant dans le code source.

Notes

Les scores globaux sont associés à des notes alphabétiques :
NoteScore min.Description
A90Prêt pour la production. Problèmes minimes.
B75Solide, mais avec quelques lacunes à corriger.
C60Utilisable, mais nécessite un certain nettoyage.
D40Problèmes importants.
F< 40Pas utile — mieux vaut repartir de zéro.
Les notes sont étalonnées pour correspondre à l’intuition des développeurs. Un score de 91 devrait correspondre à du code que vous accepteriez avec une révision minimale. Un score de 55 devrait correspondre à quelque chose qui exige un vrai travail de correction.

Validation des résultats

Chaque évaluateur vérifie le code généré — pas le texte ni les explications. Les évaluateurs s’assurent que le code compile, importe de vrais packages, appelle de véritables méthodes du SDK et n’introduit pas de vulnérabilités de sécurité. Les résultats sont validés à plusieurs niveaux :
  • Vérifications de présence : les symboles du SDK, les imports et les clés de configuration requis sont présents dans le résultat.
  • Détection d’hallucinations : les packages inventés, les mauvaises variantes du SDK et les méthodes d’API fabriquées sont détectés.
  • Vérifications de sécurité : les identifiants codés en dur, les tokens stockés dans un emplacement non sécurisé et les secrets dans le code source sont signalés.
  • Validation structurelle : le code est correctement assemblé — les bons composants dans les bons fichiers, les hooks du cycle de vie sont gérés et le middleware est dans le bon ordre.
  • Exactitude des versions : l’agent utilise les API actuelles, et non des modèles obsolètes (vérifié seulement lorsque l’agent a accès à la documentation à jour).
  • Évaluation globale : un juge LLM évalue l’exactitude globale de l’implémentation.

Coût et temps estimés

La page des résultats affiche le coût et le temps estimés pour chaque configuration. Ces valeurs correspondent à une seule exécution d’évaluation avec Auth0 MCP + Skills activés.

Coût estimé

Le coût est calculé en fonction du nombre total de jetons consommés pendant l’exécution de l’évaluation (jetons d’entrée + jetons de sortie), multiplié par le prix par jeton publié par le fournisseur du modèle. Auth0 ne facture pas l’exécution des évaluations — le coût correspond à ce que vous paieriez à votre fournisseur de modèles pour un volume de jetons équivalent. Le prix des jetons varie selon le modèle et le fournisseur. Pour connaître les tarifs en vigueur, consultez la page de tarification de votre fournisseur :

Temps estimé

Le temps correspond à la durée réelle de l’exécution de l’évaluation, depuis la soumission du prompt jusqu’au résultat final. Il comprend toute l’activité de l’agent : lecture de fichiers, appels aux outils, attente des réponses d’API et écriture de code. Le temps peut varier selon :
  • La latence de l’API du fournisseur de modèle et les limites de débit
  • Le nombre d’appels aux outils requis (varie selon la complexité de la tâche)
  • Les conditions réseau entre l’environnement d’évaluation et le fournisseur de modèle
  • La profondeur de la file d’attente et la charge du fournisseur
Le temps n’est pas normalisé d’un fournisseur à l’autre. Un temps plus court reflète à la fois l’efficacité du modèle et la performance de l’infrastructure du fournisseur.

En savoir plus