logo
APIEval-20 logo

APIEval-20AIエージェントの実力を客観的に測定する

AIエージェントのAPIテスト能力を客観的に評価するオープンベンチマーク。認証、エラー処理、ページネーションなど実用的なタスクで検証。

APIEval-20 screenshot

APIEval-20についてもっと知る

APIEval-20

APIEval-20 は、AI エージェントが実際にバグを発見する API テストスイートを生成できる能力を評価するために特別に設計された初のベンチマークです—ソースコードやドキュメントへのアクセスなしに、スキーマとサンプルペイロードのみを使用します。E コマース、決済、認証など、20 の多様なシナリオで実世界のブラックボックステスト能力を測定します。

製品のハイライト

  • ブラックボックス評価: JSON スキーマとサンプルペイロードのみで AI エージェントをテストし、開発者が実際に API を受け取る状況を反映します。
  • 3 段階のバグ複雑性: 単純な構造バグ、中程度の制約違反、複雑なマルチフィールドの意味論的エラーの検出を測定します。
  • 自動化ライブテスト: 各テストケースは実際にデプロイされた API 実装に対して実行され、客観的で再現可能なスコアリングが行われます。
  • 重み付けスコアリングシステム: バグ発見を優先(70%)、包括的カバレッジを報奨(20%)、非効率性をペナルティ(10%)とする現実的な評価です。
  • マルチドメインカバレッジ: 決済、ユーザー管理、スケジューリング、検索など 7 つのアプリケーションドメインにわたる 20 のシナリオ。

ユースケース

  • AI エージェント評価: API テスト生成のための標準化された客観的なベンチマークを使用して、LLM ベースのテストエージェントを比較します。
  • QA 自動化研究: REST API の自動テストスイート生成の新しいアプローチを開発・検証します。
  • ツール選択: コーディングアシスタントと専門テストエージェントの選択時にデータに基づく意思決定を行います。

ターゲットオーディエンス

APIEval-20 はテストエージェントを構築する AI 研究者、自動化ツールを評価するエンジニアリングチーム、およびエージェントのパフォーマンスを人間の QA 基準と比較するための客観的なメトリクスを求める QA リーダーに役立ちます。