テスト仕様
スコアの評価軸
| Dimension | Category | Description |
|---|---|---|
| Setup Friction | Process | エージェントがどの程度自律的にタスクを完了できたかに基づくスコアです。エージェントが途中で停止して質問したり、エラーに遭遇した場合はスコアが下がります。 |
| Setup Speed | Process | エージェントの実行に実際にかかった時間に基づくスコアです。結果は環境をまたいで比較できます。 |
| Efficiency | Process | タスクの完了に必要だったツール呼び出し回数に基づくスコアです。ツール呼び出しが少ないほど、コストと複雑さは低くなります。 |
| Error Recovery | Process | 実行を妨げたインフラストラクチャエラー (レート制限、タイムアウト) に基づくスコアです。 |
| Correctness | Output | 生成されたコードが実在するパッケージを import し、実在するメソッドを呼び出し、コンポーネントを正しく組み込んでいるかどうかに基づくスコアです。 |
| Hallucination | Output | エージェントが存在しないパッケージをでっち上げていないか、または誤った SDK バリアントを使用していないかに基づくスコアです。 |
| Security | Output | エージェントがシークレットをハードコードしていないか、トークンを安全でない方法で保存していないか、または認証情報をソースコードにコミットしていないかに基づくスコアです。 |
グレード
| グレード | 最低スコア | 説明 |
|---|---|---|
| A | 90 | 本番環境で使用可能。問題は最小限です。 |
| B | 75 | 十分に良好ですが、いくつか修正すべき点があります。 |
| C | 60 | 使用可能ですが、整理が必要です。 |
| D | 40 | 重大な問題があります。 |
| F | < 40 | 実用的ではありません。最初からやり直したほうが早い状態です。 |
結果の検証
- 存在チェック: 必須のSDKシンボル、import、設定キーが出力に含まれているかを確認します。
- ハルシネーション検出: 架空のパッケージ、誤ったSDKバリアント、捏造されたAPIメソッドを検出します。
- セキュリティチェック: ハードコードされた認証情報、安全でないストレージ内のトークン、ソースコード内のシークレットを検出します。
- 構造検証: コードが正しく構成されているかを確認します。具体的には、適切なコンポーネントが適切なファイルに配置されていること、ライフサイクルフックが処理されていること、ミドルウェアが正しい順序になっていることを検証します。
- バージョンの妥当性: エージェントが最新のAPIを使用し、非推奨のパターンを使っていないことを確認します (エージェントが最新のドキュメントにアクセスできる場合にのみチェックされます) 。
- 総合レビュー: LLM judge が実装全体の正確性を評価します。
推定コストと推定時間
推定コスト
推定時間
- モデルプロバイダーの API レイテンシーとレート制限
- 必要なツール呼び出しの回数 (タスクの複雑さによって異なります)
- eval 環境とモデルプロバイダーの間のネットワーク状況
- プロバイダー側のキューの深さと負荷