
Benchmark de código abierto para evaluar agentes de testing de APIs. Detecta bugs, mide cobertura y eficiencia con scoring objetivo. Disponible en Hugging Face.

APIEval-20 es el primer benchmark diseñado específicamente para evaluar la capacidad de los agentes de IA para generar suites de pruebas de API que realmente encuentren errores—utilizando únicamente un esquema y payload de ejemplo, sin acceso al código fuente ni documentación. Mide la capacidad de prueba de caja negra en 20 escenarios diversos que abarcan comercio electrónico, pagos, autenticación y más.
APIEval-20 atiende a investigadores de IA que construyen agentes de prueba, equipos de ingeniería que evalúan herramientas de automatización, y líderes de QA que buscan métricas objetivas para comparar el rendimiento de agentes con los estándares de prueba humana.
Find gaps in your AI agents before users do

Vision-first QA testing across web and mobile

The context layer for production-grade AI agent

Autonomous quality for engineering teams

build your own software factory

The Infrastructure Behind AI Agencies | White-Label Platform

Discover, access, and pay for any API autonomously

Ship AI agents without the operational burden

Recruit agents to run your company as a synchronous team

Control AI agents with confidence

Open-Source Brain For Your Team

Finance agent templates for pitches, KYC, and closing books

LLM Wiki + NotebookLM, in one closed-loop Proactive AI

A reasoning model that interprets intent before it generates

The agent which teaches while you build

Parallel agents, diff reviewer, and multi-model comparisons

Turn your voice and screen into shareable videos instantly.

The work your meetings create, done before they end

Open-Source Brain For Your Team

Virtual Machines for Your Agents

Run 100s of coding agents on any machine from anywhere

open source agent engineering platform

The missing open-source Kubernetes UI

Agent Teams You Can Actually Delegate To

Discover, access, and pay for any API autonomously