
Открытый бенчмарк для оценки AI-агентов тестирования API. Объективное скоринг: проверка багов, покрытие, эффективность. Доступен на Hugging Face.

APIEval-20 — это первый бенчмарк, специально разработанный для оценки способности ИИ-агентов генерировать наборы тестов API, которые действительно находят баги—используя только схему JSON и пример полезной нагрузки, без доступа к исходному коду или документации. Он измеряет возможности тестирования чёрного ящика в 20 разнообразных сценариях, охватывающих электронную коммерцию, платежи, аутентификацию и многое другое.
APIEval-20 служит исследователям ИИ, создающим тестовых агентов, инженерным командам, оценивающим инструменты автоматизации, и руководителям QA, ищущим объективные метрики для сравнения производительности агентов с человеческими стандартами тестирования.
Find gaps in your AI agents before users do

Vision-first QA testing across web and mobile

The context layer for production-grade AI agent

Autonomous quality for engineering teams

build your own software factory

The Infrastructure Behind AI Agencies | White-Label Platform

Discover, access, and pay for any API autonomously

Ship AI agents without the operational burden

Recruit agents to run your company as a synchronous team

Control AI agents with confidence

Open-Source Brain For Your Team

Finance agent templates for pitches, KYC, and closing books

LLM Wiki + NotebookLM, in one closed-loop Proactive AI

A reasoning model that interprets intent before it generates

The agent which teaches while you build

Parallel agents, diff reviewer, and multi-model comparisons

Turn your voice and screen into shareable videos instantly.

The work your meetings create, done before they end

Open-Source Brain For Your Team

Virtual Machines for Your Agents

Run 100s of coding agents on any machine from anywhere

open source agent engineering platform

The missing open-source Kubernetes UI

Agent Teams You Can Actually Delegate To

Discover, access, and pay for any API autonomously