logo
APIEval-20 logo

APIEval-20Evalúa agentes de IA con métricas objetivas y datos reales

Benchmark de código abierto para evaluar agentes de testing de APIs. Detecta bugs, mide cobertura y eficiencia con scoring objetivo. Disponible en Hugging Face.

APIEval-20 screenshot

Más sobre APIEval-20

APIEval-20

APIEval-20 es el primer benchmark diseñado específicamente para evaluar la capacidad de los agentes de IA para generar suites de pruebas de API que realmente encuentren errores—utilizando únicamente un esquema y payload de ejemplo, sin acceso al código fuente ni documentación. Mide la capacidad de prueba de caja negra en 20 escenarios diversos que abarcan comercio electrónico, pagos, autenticación y más.

Aspectos Destacados

  • Evaluación de Caja Negra: Prueba agentes de IA solo con esquema JSON y payload de ejemplo, reflejando cómo los desarrolladores reciben APIs en la práctica real.
  • Tres Niveles de Complejidad de Errores: Mide la detección de errores estructurales simples, violaciones de restricciones moderadas y errores semánticos complejos de múltiples campos.
  • Pruebas Automatizadas en Vivo: Cada caso de prueba se ejecuta contra implementaciones de API reales desplegadas, con puntuación objetiva y reproducible.
  • Sistema de Puntuación Ponderado: Prioriza la detección de errores (70%), recompensa la cobertura exhaustiva (20%) y penaliza la ineficiencia (10%) para una evaluación realista.
  • Cobertura Multidominio: 20 escenarios en 7 dominios de aplicación incluyendo pagos, gestión de usuarios, programación y búsqueda.

Casos de Uso

  • Evaluación de Agentes de IA: Comparar agentes de prueba basados en LLM mediante un benchmark estandarizado y objetivo para generación de pruebas de API.
  • Investigación en Automatización de QA: Desarrollar y validar nuevos enfoques para la generación automatizada de suites de pruebas para APIs REST.
  • Selección de Herramientas: Tomar decisiones basadas en datos al elegir entre asistentes de codificación y agentes de prueba especializados.

Audiencia Objetivo

APIEval-20 atiende a investigadores de IA que construyen agentes de prueba, equipos de ingeniería que evalúan herramientas de automatización, y líderes de QA que buscan métricas objetivas para comparar el rendimiento de agentes con los estándares de prueba humana.

    APIEval-20: Benchmark para Agentes de Testing de APIs