APIEval-20: AI एजेंट के लिए ओपन बेंचमार्क

APIEval-20

APIEval-20 पहला बेंचमार्क है जिसे विशेष रूप से AI एजेंट्स की API टेस्ट सुइट जनरेशन क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है—केवल JSON स्कीमा और सैंपल पेलोड का उपयोग करके, बिना सोर्स कोड या डॉक्यूमेंटेशन के एक्सेस के। यह ई-कॉमर्स, पेमेंट्स, ऑथेंटिकेशन और अन्य क्षेत्रों के 20 विविध परिदृश्यों में रीयल-वर्ल्ड ब्लैक-बॉक्स टेस्टिंग क्षमता को मापता है।

प्रमुख विशेषताएं

ब्लैक-बॉक्स मूल्यांकन: केवल JSON स्कीमा और सैंपल पेलोड के साथ AI एजेंट्स का परीक्षण, जो वास्तविक दुनिया में डेवलपर्स को APIs प्राप्त होने के तरीके को दर्शाता है।
तीन-स्तरीय बग जटिलता: सरल संरचनात्मक बग्स, मध्यम बाधा उल्लंघन, और जटिल मल्टी-फील्ड सिमेंटिक त्रुटियों की पहचान को मापता है।
स्वचालित लाइव टेस्टिंग: प्रत्येक टेस्ट केस वास्तविक तैनात API कार्यान्वयन के विरुद्ध चलाया जाता है, जिसमें वस्तुनिष्ठ, पुनरावृत्ति योग्य स्कोरिंग होती है।
भारित स्कोरिंग प्रणाली: बग खोजने को प्राथमिकता (70%), व्यापक कवरेज को पुरस्कृत (20%), और अक्षमता को दंडित (10%) करता है।
बहु-क्षेत्र कवरेज: 7 एप्लिकेशन डोमेन में 20 परिदृश्य जिनमें पेमेंट्स, यूजर मैनेजमेंट, शेड्यूलिंग और खोज शामिल हैं।

उपयोग के मामले

AI एजेंट मूल्यांकन: LLM-आधारित टेस्टिंग एजेंट्स की API टेस्ट जनरेशन के लिए मानकीकृत, वस्तुनिष्ठ बेंचमार्क के साथ तुलना।
QA ऑटोमेशन रिसर्च: REST APIs के लिए स्वचालित टेस्ट सुइट जनरेशन के नए दृष्टिकोणों को विकसित और मान्य करना।
टूल चयन: कोडिंग असिस्टेंट्स और विशेषज्ञ टेस्टिंग एजेंट्स के बीच चुनते समय डेटा-आधारित निर्णय लेना।

लक्षित दर्शक

APIEval-20 AI शोधकर्ताओं, ऑटोमेशन टूल का मूल्यांकन करने वाली इंजीनियरिंग टीमों, और मानव QA मानकों के साथ एजेंट प्रदर्शन की तुलना के लिए वस्तुनिष्ठ मेट्रिक्स खोजने वाले QA लीडर्स की सेवा करता है।

APIEval-20.

APIEval-20 के बारे में अधिक जानकारी

APIEval-20

प्रमुख विशेषताएं

उपयोग के मामले

लक्षित दर्शक

आपको यह भी पसंद आ सकता है