APIEval-20: бенчмарк для тестирования AI-агентов API

APIEval-20

APIEval-20 — это первый бенчмарк, специально разработанный для оценки способности ИИ-агентов генерировать наборы тестов API, которые действительно находят баги—используя только схему JSON и пример полезной нагрузки, без доступа к исходному коду или документации. Он измеряет возможности тестирования чёрного ящика в 20 разнообразных сценариях, охватывающих электронную коммерцию, платежи, аутентификацию и многое другое.

Ключевые особенности

Оценка чёрного ящика: Тестирует ИИ-агентов только со схемой JSON и примером полезной нагрузки, отражая реальную практику получения API разработчиками.
Три уровня сложности багов: Измеряет обнаружение простых структурных багов, умеренных нарушений ограничений и сложных семантических ошибок с несколькими полями.
Автоматизированное живое тестирование: Каждый тестовый случай выполняется на реальных развёрнутых реализациях API с объективной, воспроизводимой оценкой.
Взвешенная система оценки: Приоритет обнаружению багов (70%), поощрение полного покрытия (20%), штраф за неэффективность (10%).
Многодоменное покрытие: 20 сценариев в 7 прикладных доменах, включая платежи, управление пользователями, планирование и поиск.

Сценарии использования

Оценка ИИ-агентов: Сравнение тестовых агентов на основе LLM с использованием стандартизированного объективного бенчмарка.
Исследования автоматизации QA: Разработка и валидация новых подходов к автоматической генерации тестовых наборов для REST API.
Выбор инструментов: Принятие решений на основе данных при выборе между помощниками по кодированию и специализированными тестовыми агентами.

Целевая аудитория

APIEval-20 служит исследователям ИИ, создающим тестовых агентов, инженерным командам, оценивающим инструменты автоматизации, и руководителям QA, ищущим объективные метрики для сравнения производительности агентов с человеческими стандартами тестирования.

APIEval-20Объективная оценка AI-агентов без субъективных суждений

Подробнее о APIEval-20

APIEval-20

Ключевые особенности

Сценарии использования

Целевая аудитория

Альтернативы APIEval-20

Fabraix

Docket

Airbyte Agents

SaolaAI

Gas City 1.0

Lety.ai

pay.sh

Phrony

Buda

Avon AI

Kanwas

Claude Agents for Financial Services

Knowly 1.0

Luma Uni 1.1 API

Contral

Топ-10 продуктов недели

Kilo Code for VS Code 7

Velo 2.0

Shadow 2.0

Kanwas

Huddle01 VMs

Superset 2.0

PandaProbe

Radar

Mindra

pay.sh