Auth0 Agent Experience Score を確認する

Agent Experience Score は、さまざまなモデルやフレームワークにおいて、AI エージェントが Auth0 をどの程度適切に実装できるかを測定する指標です。これにより、開発環境やテスト環境で MFA や Auth0 Actions などの Auth0 サービスや機能を実装するエージェントの現在のスコアを比較し、Auth0 のツールがエージェントのパフォーマンス向上にどう寄与するかを確認できます。このリソースでは、スコアの算出方法、測定対象の評価軸、グレードの付与方法など、スコアリングの手法について確認できます。

テスト仕様

AI エージェント (Claude Code、GitHub Copilot、Gemini CLI) は、分離された開発環境で Auth0 の統合タスクを実行します。各エージェントは、実際の環境で開発者が使うのと同じツール、つまりワークスペース、シェル、Auth0 CLI などのファイル操作ツールを使用します。プロンプトは短く実践的で、「Next.js アプリに認証を追加して」のようなものであり、手順を細かく示したレシピではありません。各モデルは、Auth0 ツール (MCP Server と Agent Skills) を使う場合と使わない場合の両方でテストされます。これらのスコアの差は、Auth0 の AI ツールが開発者体験に与える測定可能な影響を示します。

スコアの評価軸

各実行は、2 つのカテゴリに分かれた 7 つの評価軸で採点されます。4 つの評価軸は、Auth0 ツールを使用したエージェントのエンドツーエンドのプロセスを評価します。残り 3 つの評価軸は最終出力を評価します。各評価軸は個別に 0～100 点で採点され、その後、重み付けして総合スコアに反映されます。

Dimension	Category	Description
Setup Friction	Process	エージェントがどの程度自律的にタスクを完了できたかに基づくスコアです。エージェントが途中で停止して質問したり、エラーに遭遇した場合はスコアが下がります。
Setup Speed	Process	エージェントの実行に実際にかかった時間に基づくスコアです。結果は環境をまたいで比較できます。
Efficiency	Process	タスクの完了に必要だったツール呼び出し回数に基づくスコアです。ツール呼び出しが少ないほど、コストと複雑さは低くなります。
Error Recovery	Process	実行を妨げたインフラストラクチャエラー (レート制限、タイムアウト) に基づくスコアです。
Correctness	Output	生成されたコードが実在するパッケージを import し、実在するメソッドを呼び出し、コンポーネントを正しく組み込んでいるかどうかに基づくスコアです。
Hallucination	Output	エージェントが存在しないパッケージをでっち上げていないか、または誤った SDK バリアントを使用していないかに基づくスコアです。
Security	Output	エージェントがシークレットをハードコードしていないか、トークンを安全でない方法で保存していないか、または認証情報をソースコードにコミットしていないかに基づくスコアです。

グレード

総合スコアは次の文字グレードに対応します。

グレード	最低スコア	説明
A	90	本番環境で使用可能。問題は最小限です。
B	75	十分に良好ですが、いくつか修正すべき点があります。
C	60	使用可能ですが、整理が必要です。
D	40	重大な問題があります。
F	< 40	実用的ではありません。最初からやり直したほうが早い状態です。

グレードは、開発者の感覚に合うように調整されています。91 点なら、最小限のレビューで受け入れられるコードだと感じられるはずです。55 点なら、修正にかなりの作業が必要なものだと感じられるはずです。

結果の検証

各グレーダーが検証するのは生成されたコードのみで、本文や説明は対象外です。グレーダーは、コードがコンパイルできること、実在するパッケージをimportしていること、実際のSDKメソッドを呼び出していること、さらにセキュリティ脆弱性を持ち込んでいないことを確認します。結果は複数のレベルで検証されます。

存在チェック: 必須のSDKシンボル、import、設定キーが出力に含まれているかを確認します。
ハルシネーション検出: 架空のパッケージ、誤ったSDKバリアント、捏造されたAPIメソッドを検出します。
セキュリティチェック: ハードコードされた認証情報、安全でないストレージ内のトークン、ソースコード内のシークレットを検出します。
構造検証: コードが正しく構成されているかを確認します。具体的には、適切なコンポーネントが適切なファイルに配置されていること、ライフサイクルフックが処理されていること、ミドルウェアが正しい順序になっていることを検証します。
バージョンの妥当性: エージェントが最新のAPIを使用し、非推奨のパターンを使っていないことを確認します (エージェントが最新のドキュメントにアクセスできる場合にのみチェックされます) 。
総合レビュー: LLM judge が実装全体の正確性を評価します。

推定コストと推定時間

結果ページには、各構成の推定コストと推定所要時間が表示されます。これらの値は、Auth0 MCP + Skills を有効にした状態での 1 回の eval 実行に基づくものです。

推定コスト

コストは、eval の実行中に消費された合計トークン数 (入力トークン + 出力トークン) に、モデルプロバイダーが公開しているトークン単価を掛けて算出されます。Auth0 が eval の実行に対して課金することはありません。このコストは、同等のトークン使用量に対してモデルプロバイダーに支払う金額を表します。トークン単価は、モデルとプロバイダーによって異なります。最新の料金については、利用しているプロバイダーの料金ページを参照してください。

推定時間

時間は、プロンプトの送信から最終出力までにかかる eval 実行の実時間です。これには、ファイルの読み取り、ツール呼び出し、API 応答の待機、コードの記述など、エージェントによるすべてのアクティビティが含まれます。時間は、次の要因によって変動する場合があります。

モデルプロバイダーの API レイテンシーとレート制限
必要なツール呼び出しの回数 (タスクの複雑さによって異なります)
eval 環境とモデルプロバイダーの間のネットワーク状況
プロバイダー側のキューの深さと負荷

時間はプロバイダー間で正規化されていません。時間が短いほど、モデルの効率とプロバイダーのインフラストラクチャの性能の両方が高いことを示します。

​テスト仕様

​スコアの評価軸

​グレード

​結果の検証

​推定コストと推定時間

​推定コスト

​推定時間

​詳細はこちら