
AIエージェントのAPIテスト能力を客観的に評価するオープンベンチマーク。認証、エラー処理、ページネーションなど実用的なタスクで検証。

APIEval-20 は、AI エージェントが実際にバグを発見する API テストスイートを生成できる能力を評価するために特別に設計された初のベンチマークです—ソースコードやドキュメントへのアクセスなしに、スキーマとサンプルペイロードのみを使用します。E コマース、決済、認証など、20 の多様なシナリオで実世界のブラックボックステスト能力を測定します。
APIEval-20 はテストエージェントを構築する AI 研究者、自動化ツールを評価するエンジニアリングチーム、およびエージェントのパフォーマンスを人間の QA 基準と比較するための客観的なメトリクスを求める QA リーダーに役立ちます。
Find gaps in your AI agents before users do

Vision-first QA testing across web and mobile

The context layer for production-grade AI agent

Autonomous quality for engineering teams

build your own software factory

The Infrastructure Behind AI Agencies | White-Label Platform

Discover, access, and pay for any API autonomously

Ship AI agents without the operational burden

Recruit agents to run your company as a synchronous team

Control AI agents with confidence

Open-Source Brain For Your Team

Finance agent templates for pitches, KYC, and closing books

LLM Wiki + NotebookLM, in one closed-loop Proactive AI

A reasoning model that interprets intent before it generates

The agent which teaches while you build

Parallel agents, diff reviewer, and multi-model comparisons

Turn your voice and screen into shareable videos instantly.

The work your meetings create, done before they end

Open-Source Brain For Your Team

Virtual Machines for Your Agents

Run 100s of coding agents on any machine from anywhere

open source agent engineering platform

The missing open-source Kubernetes UI

Agent Teams You Can Actually Delegate To

Discover, access, and pay for any API autonomously