logo
APIEval-20 logo

APIEval-20वस्तुनिष्ठ स्कोरिंग से AI एजेंट की असली क्षमता जानें

APIEval-20 एक ब्लैक-बॉक्स बेंचमार्क है जो AI एजेंट्स की API टेस्टिंग क्षमता का मूल्यांकन करता है। ऑब्जेक्टिव स्कोरिंग के साथ Hugging Face पर उपलब्ध।

APIEval-20 screenshot

APIEval-20 के बारे में अधिक जानकारी

APIEval-20

APIEval-20 पहला बेंचमार्क है जिसे विशेष रूप से AI एजेंट्स की API टेस्ट सुइट जनरेशन क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है—केवल JSON स्कीमा और सैंपल पेलोड का उपयोग करके, बिना सोर्स कोड या डॉक्यूमेंटेशन के एक्सेस के। यह ई-कॉमर्स, पेमेंट्स, ऑथेंटिकेशन और अन्य क्षेत्रों के 20 विविध परिदृश्यों में रीयल-वर्ल्ड ब्लैक-बॉक्स टेस्टिंग क्षमता को मापता है।

प्रमुख विशेषताएं

  • ब्लैक-बॉक्स मूल्यांकन: केवल JSON स्कीमा और सैंपल पेलोड के साथ AI एजेंट्स का परीक्षण, जो वास्तविक दुनिया में डेवलपर्स को APIs प्राप्त होने के तरीके को दर्शाता है।
  • तीन-स्तरीय बग जटिलता: सरल संरचनात्मक बग्स, मध्यम बाधा उल्लंघन, और जटिल मल्टी-फील्ड सिमेंटिक त्रुटियों की पहचान को मापता है।
  • स्वचालित लाइव टेस्टिंग: प्रत्येक टेस्ट केस वास्तविक तैनात API कार्यान्वयन के विरुद्ध चलाया जाता है, जिसमें वस्तुनिष्ठ, पुनरावृत्ति योग्य स्कोरिंग होती है।
  • भारित स्कोरिंग प्रणाली: बग खोजने को प्राथमिकता (70%), व्यापक कवरेज को पुरस्कृत (20%), और अक्षमता को दंडित (10%) करता है।
  • बहु-क्षेत्र कवरेज: 7 एप्लिकेशन डोमेन में 20 परिदृश्य जिनमें पेमेंट्स, यूजर मैनेजमेंट, शेड्यूलिंग और खोज शामिल हैं।

उपयोग के मामले

  • AI एजेंट मूल्यांकन: LLM-आधारित टेस्टिंग एजेंट्स की API टेस्ट जनरेशन के लिए मानकीकृत, वस्तुनिष्ठ बेंचमार्क के साथ तुलना।
  • QA ऑटोमेशन रिसर्च: REST APIs के लिए स्वचालित टेस्ट सुइट जनरेशन के नए दृष्टिकोणों को विकसित और मान्य करना।
  • टूल चयन: कोडिंग असिस्टेंट्स और विशेषज्ञ टेस्टिंग एजेंट्स के बीच चुनते समय डेटा-आधारित निर्णय लेना।

लक्षित दर्शक

APIEval-20 AI शोधकर्ताओं, ऑटोमेशन टूल का मूल्यांकन करने वाली इंजीनियरिंग टीमों, और मानव QA मानकों के साथ एजेंट प्रदर्शन की तुलना के लिए वस्तुनिष्ठ मेट्रिक्स खोजने वाले QA लीडर्स की सेवा करता है।

साप्ताहिक शीर्ष 10 उत्पाद