APIEval-20: Benchmark Objektif untuk Pengujian API

Lebih Lanjut Tentang APIEval-20

APIEval-20

APIEval-20 adalah benchmark pertama yang dirancang khusus untuk mengevaluasi seberapa baik agen AI dapat membuat rangkaian pengujian API yang benar-benar menemukan bug—menggunakan hanya skema JSON dan contoh payload, tanpa akses ke kode sumber atau dokumentasi. Benchmark ini mengukur kemampuan pengujian black-box di dunia nyata melintasi 20 skenario API yang beragam, mencakup e-commerce, pembayaran, autentikasi, dan lainnya.

Sorotan Produk

Evaluasi Black-Box: Menguji agen AI hanya dengan skema JSON dan contoh payload, mencerminkan bagaimana pengembang benar-benar menerima API dalam praktik nyata.
Tiga Tingkat Kompleksitas Bug: Mengukur deteksi bug struktural sederhana, pelanggaran batasan sedang, dan kesalahan semantik multi-field yang kompleks.
Pengujian Live Terotomatisasi: Setiap kasus uji dijalankan terhadap implementasi API yang benar-benar di-deploy, dengan penilaian yang objektif dan dapat direproduksi.
Sistem Penilaian Berbobot: Mengutamakan penemuan bug (70%), memberikan imbalan untuk cakupan menyeluruh (20%), dan menghukum ketidakefisienan (10%).
Cakupan Multi-Domain: 20 skenario di 7 domain aplikasi termasuk pembayaran, manajemen pengguna, penjadwalan, dan pencarian.

Kasus Penggunaan

Evaluasi Agen AI: Membandingkan agen pengujian berbasis LLM menggunakan benchmark standar dan objektif untuk pembuatan pengujian API.
Riset Otomasi QA: Mengembangkan dan memvalidasi pendekatan baru untuk pembuatan rangkaian pengujian otomatis untuk REST API.
Pemilihan Alat: Membuat keputusan berbasis data saat memilih antara asisten pengkodean dan agen pengujian khusus.

Audiens Target

APIEval-20 melayani peneliti AI yang membangun agen pengujian, tim engineering yang mengevaluasi alat otomasi, dan pemimpin QA yang mencari metrik objektif untuk membandingkan kinerja agen dengan standar pengujian manusia.

Alternatif APIEval-20