logo
APIEval-20 logo

APIEval-20Teste suas APIs com precisão objetiva usando inteligência artificial

Benchmark open-source para avaliar agentes de teste de APIs. Detecta bugs em APIs reais com scoring objetivo. Disponível no Hugging Face.

APIEval-20 screenshot

Mais sobre APIEval-20

APIEval-20

O APIEval-20 é o primeiro benchmark projetado especificamente para avaliar a capacidade de agentes de IA em gerar suites de teste de API que realmente encontram bugs—usando apenas um esquema e payload de exemplo, sem acesso ao código-fonte ou documentação. Ele mede a capacidade de teste de caixa-preta em 20 cenários diversos abrangendo e-commerce, pagamentos, autenticação e mais.

Destaques do Produto

  • Avaliação de Caixa-Preta: Testa agentes de IA apenas com esquema JSON e payload de exemplo, refletindo como os desenvolvedores realmente recebem APIs na prática.
  • Três Níveis de Complexidade de Bugs: Mede a detecção de bugs estruturais simples, violações de restrições moderadas e erros semânticos complexos de múltiplos campos.
  • Testes Automatizados em Tempo Real: Cada caso de teste é executado contra implementações de API reais implantadas, com pontuação objetiva e reprodutível.
  • Sistema de Pontuação Ponderado: Prioriza a descoberta de bugs (70%), recompensa a cobertura abrangente (20%) e penaliza a ineficiência (10%).
  • Cobertura Multidomínio: 20 cenários em 7 domínios de aplicação incluindo pagamentos, gerenciamento de usuários, agendamento e busca.

Casos de Uso

  • Avaliação de Agentes de IA: Comparar agentes de teste baseados em LLM usando um benchmark padronizado e objetivo para geração de testes de API.
  • Pesquisa em Automação de QA: Desenvolver e validar novas abordagens para geração automatizada de suites de teste para APIs REST.
  • Seleção de Ferramentas: Tomar decisões baseadas em dados ao escolher entre assistentes de codificação e agentes de teste especializados.

Público-Alvo

O APIEval-20 atende pesquisadores de IA que constroem agentes de teste, equipes de engenharia que avaliam ferramentas de automação e líderes de QA que buscam métricas objetivas para comparar o desempenho de agentes com os padrões de teste humanos.