APIEval-20: معيار موضوعي لاختبار وكلاء الذكاء الاصطناعي

APIEval-20

APIEval-20 هو أول معيار مصمم خصيصًا لتقييم قدرة وكلاء الذكاء الاصطناعي على إنشاء حزم اختبار API تكتشف الأخطاء فعليًا—باستخدام مخطط JSON وحمولة نموذجية فقط، دون الوصول إلى الكود المصدري أو التوثيق. يقيس قدرة اختبار الصندوق الأسود عبر 20 سيناريو متنوعًا تشمل التجارة الإلكترونية والمدفوعات والمصادقة وغيرها.

أبرز المميزات

تقييم الصندوق الأسود: يختبر وكلاء الذكاء الاصطناعي باستخدام مخطط JSON والحمولة النموذجية فقط، مما يعكس كيفية استلام المطورين للـ APIs في الواقع العملي.
ثلاثة مستويات لأخطاء معقدة: يقيس اكتشاف الأخطاء البسيطة والمتوسطة والمعقدة عبر الحقول المتعددة.
اختبار مباشر تلقائي: يتم تنفيذ كل حالة اختبار على تطبيقات API حقيقية منشورة مع تقييم موضوعي وقابل للتكرار.
نظام تقييم مرجح: يعطي الأولوية لاكتشاف الأخطاء (70%)، ويكافأ التغطية الشاملة (20%)، ويعاقب عدم الكفاءة (10%).
تغطية متعددة المجالات: 20 سيناريو عبر 7 مجالات تشمل المدفوعات وإدارة المستخدمين والجدولة والبحث.

حالات الاستخدام

تقييم وكلاء الذكاء الاصطناعي: مقارنة وكلاء الاختبار القائمين على LLM باستخدام معيار موحد وموضوعي.
بحث أتمتة ضمان الجودة: تطوير وتحقق من نهج جديدة لإنشاء حزم اختبار آلية لـ APIs REST.
اختيار الأدوات: اتخاذ قرارات مبنية على البيانات عند الاختيار بين المساعدات البرمجية ووكلاء الاختبار المتخصصين.

الجمهور المستهدف

يخدم APIEval-20 باحثي الذكاء الاصطناعي الذين يبنون وكلاء اختبار، وفرق الهندسة التي تقيّم أدوات الأتمتة، وقادة ضمان الجودة الباحثين عن مقاييس موضوعية لمقارنة أداء الوكلاء بمعايير الاختبار البشري.

APIEval-20اكتشف الأخطاء بدقة موضوعية في اختبارات APIs

المزيد عن APIEval-20

APIEval-20

أبرز المميزات

حالات الاستخدام

الجمهور المستهدف

بدائل APIEval-20

Fabraix

Docket

Airbyte Agents

SaolaAI

Gas City 1.0

Lety.ai

pay.sh

Phrony

Buda

Avon AI

Kanwas

Claude Agents for Financial Services

Knowly 1.0

Luma Uni 1.1 API

Contral

أفضل 10 منتجات أسبوعيًا

Kilo Code for VS Code 7

Velo 2.0

Shadow 2.0

Kanwas

Huddle01 VMs

Superset 2.0

PandaProbe

Radar

Mindra

pay.sh