logo
APIEval-20 logo

APIEval-20AI agent'lerinizi gerçek API'lerde nesnel ölçütlerle değerlendirin

Açık kaynaklı, nesnel puanlamalı API test benchmark'i. AI agent'lerinizin yeteneklerini ölçün.

APIEval-20 screenshot

APIEval-20 Hakkında Daha Fazla

APIEval-20

APIEval-20, AI ajanlarının gerçekten hata bulan API test paketleri oluşturma yeteneğini değerlendirmek için özel olarak tasarlanmış ilk benchmark'tır—kaynak kodu veya dokümantasyona erişim olmadan, yalnızca bir şema ve örnek yük kullanarak. E-ticaret, ödemeler, kimlik doğrulama ve daha fazlasını kapsayan 20 çeşitli senaryoda gerçek dünya kara kutu test yeteneğini ölçer.

Ürün Öne Çıkanları

  • Kara Kutu Değerlendirmesi: AI ajanlarını yalnızca JSON şeması ve örnek yük ile test eder, geliştiricilerin API'leri gerçekte nasıl aldığını yansıtır.
  • Üç Seviyeli Hata Karmaşıklığı: Basit yapısal hatalar, orta düzeyde kısıtlama ihlalleri ve karmaşık çok alanlı anlamsal hataların tespitini ölçer.
  • Otomatik Canlı Test: Her test senaryosu, gerçek dağıtılmış API uygulamalarına karşı çalıştırılır ve nesnel, tekrarlanabilir puanlama yapılır.
  • Ağırlıklı Puanlama Sistemi: Hata bulmayı önceliklendirir (%70), kapsamlı kapsamı ödüllendirir (%20) ve verimsizliği cezalandırır (%10).
  • Çok Alanlı Kapsam: Ödemeler, kullanıcı yönetimi, planlama ve arama dahil 7 uygulama alanında 20 senaryo.

Kullanım Senaryoları

  • AI Ajan Değerlendirmesi: API test oluşturma için standartlaştırılmış, nesnel bir benchmark kullanarak LLM tabanlı test ajanlarını karşılaştırma.
  • QA Otomasyon Araştırması: REST API'ler için otomatik test paketi oluşturma konusunda yeni yaklaşımlar geliştirme ve doğrulama.
  • Araç Seçimi: Kodlama asistanları ve uzmanlaşmış test ajanları arasında seçim yaparken veri odaklı kararlar alma.

Hedef Kitle

APIEval-20, test ajanları oluşturan AI araştırmacılarına, otomasyon araçlarını değerlendiren mühendislik ekiplerine ve ajan performansını insan QA standartlarıyla karşılaştırmak için nesnel metrikler arayan QA liderlerine hizmet eder.