logo
APIEval-20 logo

APIEval-20Ukur kemampuan AI mendeteksi bug API secara objektif dan transparan

Benchmark black-box untuk menguji agen AI dalam deteksi bug API. Skor objektif berdasarkan cakupan, efisiensi, dan penemuan bug nyata. Tersedia open-source.

APIEval-20 screenshot

Lebih Lanjut Tentang APIEval-20

APIEval-20

APIEval-20 adalah benchmark pertama yang dirancang khusus untuk mengevaluasi seberapa baik agen AI dapat membuat rangkaian pengujian API yang benar-benar menemukan bug—menggunakan hanya skema JSON dan contoh payload, tanpa akses ke kode sumber atau dokumentasi. Benchmark ini mengukur kemampuan pengujian black-box di dunia nyata melintasi 20 skenario API yang beragam, mencakup e-commerce, pembayaran, autentikasi, dan lainnya.

Sorotan Produk

  • Evaluasi Black-Box: Menguji agen AI hanya dengan skema JSON dan contoh payload, mencerminkan bagaimana pengembang benar-benar menerima API dalam praktik nyata.
  • Tiga Tingkat Kompleksitas Bug: Mengukur deteksi bug struktural sederhana, pelanggaran batasan sedang, dan kesalahan semantik multi-field yang kompleks.
  • Pengujian Live Terotomatisasi: Setiap kasus uji dijalankan terhadap implementasi API yang benar-benar di-deploy, dengan penilaian yang objektif dan dapat direproduksi.
  • Sistem Penilaian Berbobot: Mengutamakan penemuan bug (70%), memberikan imbalan untuk cakupan menyeluruh (20%), dan menghukum ketidakefisienan (10%).
  • Cakupan Multi-Domain: 20 skenario di 7 domain aplikasi termasuk pembayaran, manajemen pengguna, penjadwalan, dan pencarian.

Kasus Penggunaan

  • Evaluasi Agen AI: Membandingkan agen pengujian berbasis LLM menggunakan benchmark standar dan objektif untuk pembuatan pengujian API.
  • Riset Otomasi QA: Mengembangkan dan memvalidasi pendekatan baru untuk pembuatan rangkaian pengujian otomatis untuk REST API.
  • Pemilihan Alat: Membuat keputusan berbasis data saat memilih antara asisten pengkodean dan agen pengujian khusus.

Audiens Target

APIEval-20 melayani peneliti AI yang membangun agen pengujian, tim engineering yang mengevaluasi alat otomasi, dan pemimpin QA yang mencari metrik objektif untuk membandingkan kinerja agen dengan standar pengujian manusia.

    APIEval-20: Benchmark Objektif untuk Pengujian API