APIEval-20: Benchmark Open-Source para Testes de APIs com IA

Mais sobre APIEval-20

APIEval-20

O APIEval-20 é o primeiro benchmark projetado especificamente para avaliar a capacidade de agentes de IA em gerar suites de teste de API que realmente encontram bugs—usando apenas um esquema e payload de exemplo, sem acesso ao código-fonte ou documentação. Ele mede a capacidade de teste de caixa-preta em 20 cenários diversos abrangendo e-commerce, pagamentos, autenticação e mais.

Destaques do Produto

Avaliação de Caixa-Preta: Testa agentes de IA apenas com esquema JSON e payload de exemplo, refletindo como os desenvolvedores realmente recebem APIs na prática.
Três Níveis de Complexidade de Bugs: Mede a detecção de bugs estruturais simples, violações de restrições moderadas e erros semânticos complexos de múltiplos campos.
Testes Automatizados em Tempo Real: Cada caso de teste é executado contra implementações de API reais implantadas, com pontuação objetiva e reprodutível.
Sistema de Pontuação Ponderado: Prioriza a descoberta de bugs (70%), recompensa a cobertura abrangente (20%) e penaliza a ineficiência (10%).
Cobertura Multidomínio: 20 cenários em 7 domínios de aplicação incluindo pagamentos, gerenciamento de usuários, agendamento e busca.

Casos de Uso

Avaliação de Agentes de IA: Comparar agentes de teste baseados em LLM usando um benchmark padronizado e objetivo para geração de testes de API.
Pesquisa em Automação de QA: Desenvolver e validar novas abordagens para geração automatizada de suites de teste para APIs REST.
Seleção de Ferramentas: Tomar decisões baseadas em dados ao escolher entre assistentes de codificação e agentes de teste especializados.

Público-Alvo

O APIEval-20 atende pesquisadores de IA que constroem agentes de teste, equipes de engenharia que avaliam ferramentas de automação e líderes de QA que buscam métricas objetivas para comparar o desempenho de agentes com os padrões de teste humanos.

Alternativas ao APIEval-20