logo
APIEval-20 logo

APIEval-20Объективная оценка AI-агентов без субъективных суждений

Открытый бенчмарк для оценки AI-агентов тестирования API. Объективное скоринг: проверка багов, покрытие, эффективность. Доступен на Hugging Face.

APIEval-20 screenshot

Подробнее о APIEval-20

APIEval-20

APIEval-20 — это первый бенчмарк, специально разработанный для оценки способности ИИ-агентов генерировать наборы тестов API, которые действительно находят баги—используя только схему JSON и пример полезной нагрузки, без доступа к исходному коду или документации. Он измеряет возможности тестирования чёрного ящика в 20 разнообразных сценариях, охватывающих электронную коммерцию, платежи, аутентификацию и многое другое.

Ключевые особенности

  • Оценка чёрного ящика: Тестирует ИИ-агентов только со схемой JSON и примером полезной нагрузки, отражая реальную практику получения API разработчиками.
  • Три уровня сложности багов: Измеряет обнаружение простых структурных багов, умеренных нарушений ограничений и сложных семантических ошибок с несколькими полями.
  • Автоматизированное живое тестирование: Каждый тестовый случай выполняется на реальных развёрнутых реализациях API с объективной, воспроизводимой оценкой.
  • Взвешенная система оценки: Приоритет обнаружению багов (70%), поощрение полного покрытия (20%), штраф за неэффективность (10%).
  • Многодоменное покрытие: 20 сценариев в 7 прикладных доменах, включая платежи, управление пользователями, планирование и поиск.

Сценарии использования

  • Оценка ИИ-агентов: Сравнение тестовых агентов на основе LLM с использованием стандартизированного объективного бенчмарка.
  • Исследования автоматизации QA: Разработка и валидация новых подходов к автоматической генерации тестовых наборов для REST API.
  • Выбор инструментов: Принятие решений на основе данных при выборе между помощниками по кодированию и специализированными тестовыми агентами.

Целевая аудитория

APIEval-20 служит исследователям ИИ, создающим тестовых агентов, инженерным командам, оценивающим инструменты автоматизации, и руководителям QA, ищущим объективные метрики для сравнения производительности агентов с человеческими стандартами тестирования.

Топ-10 продуктов недели

    APIEval-20: бенчмарк для тестирования AI-агентов API