Spécifications des tests
Dimensions du score
| Dimension | Catégorie | Description |
|---|---|---|
| Difficulté de configuration | Processus | Score déterminé par la capacité de l’agent à accomplir la tâche de façon autonome. Si l’agent s’est interrompu pour poser des questions ou a rencontré des erreurs, le score a diminué. |
| Vitesse de configuration | Processus | Score déterminé par le temps d’exécution actif de l’agent. Les résultats sont comparables d’un environnement à l’autre. |
| Efficacité | Processus | Score déterminé par le nombre d’appels aux outils nécessaires pour accomplir la tâche. Moins d’appels aux outils signifie moins de coûts et moins de complexité. |
| Reprise après erreur | Processus | Score déterminé par les erreurs d’infrastructure (limites de débit, délais d’expiration) qui ont perturbé l’exécution. |
| Exactitude | Résultat | Score déterminé selon que le code généré importe des packages existants, appelle de vraies méthodes et connecte correctement les composants. |
| Hallucination | Résultat | Score déterminé selon que l’agent a inventé des packages inexistants ou utilisé des variantes de SDK incorrectes. |
| Sécurité | Résultat | Score déterminé selon que l’agent a codé en dur des secrets, stocké des jetons de manière non sécurisée ou inclus des identifiant dans le code source. |
Notes
| Note | Score min. | Description |
|---|---|---|
| A | 90 | Prêt pour la production. Problèmes minimes. |
| B | 75 | Solide, mais avec quelques lacunes à corriger. |
| C | 60 | Utilisable, mais nécessite un certain nettoyage. |
| D | 40 | Problèmes importants. |
| F | < 40 | Pas utile — mieux vaut repartir de zéro. |
Validation des résultats
- Vérifications de présence : les symboles du SDK, les imports et les clés de configuration requis sont présents dans le résultat.
- Détection d’hallucinations : les packages inventés, les mauvaises variantes du SDK et les méthodes d’API fabriquées sont détectés.
- Vérifications de sécurité : les identifiants codés en dur, les tokens stockés dans un emplacement non sécurisé et les secrets dans le code source sont signalés.
- Validation structurelle : le code est correctement assemblé — les bons composants dans les bons fichiers, les hooks du cycle de vie sont gérés et le middleware est dans le bon ordre.
- Exactitude des versions : l’agent utilise les API actuelles, et non des modèles obsolètes (vérifié seulement lorsque l’agent a accès à la documentation à jour).
- Évaluation globale : un juge LLM évalue l’exactitude globale de l’implémentation.
Coût et temps estimés
Coût estimé
Temps estimé
- La latence de l’API du fournisseur de modèle et les limites de débit
- Le nombre d’appels aux outils requis (varie selon la complexité de la tâche)
- Les conditions réseau entre l’environnement d’évaluation et le fournisseur de modèle
- La profondeur de la file d’attente et la charge du fournisseur