اختبار اختراق يكشف تفاوتًا كبيرًا في قدرات نماذج الذكاء الاصطناعي
في تجربة جديدة مثيرة، أظهر باحث في أمن التطبيقات الفروقات الملحوظة في أداء نماذج الذكاء الاصطناعي خلال اختبار اختراق واقعي، مما يسلط الضوء على الفرق الشاسع بين القدرات التكنولوجية للعديد من هذه النماذج.
تجربة الباحث Kasra Rahjerdi
قام الباحث Kasra Rahjerdi بتطوير تطبيق Book Review، الذي يتميز بثغرة مقصودة في بيانات اعتماد Firebase الموجودة في ملف الـ APK، مما يؤدي إلى تمكين الوصول المباشر إلى قاعدة البيانات وخرق طبقة الحماية.
استهدف الاختبار نحو 12 نموذج ذكاء اصطناعي، مع تخصيص ميزانية قدرها 10 دولارات لكلّ محاولة، واستمر زمن التشغيل لساعتين، بلغت تكاليف الاختبار الإجمالية 1500 دولار.
نتائج الاختبارات
أدرجت النتائج نماذج مختلفة، حيث جاء نموذج GPT-5.5 في المقدمة، إذ تمكن من إتمام 7 من أصل 10 محاولات بنجاح، بتكلفة تقارب 9.46 دولار لكل عملية ناجحة. أظهر النموذج الكفاءة العالية في التعرف على ثغرة Firebase وسرعة التنفيذ دون الانحراف إلى تحليل الواجهة.
بالمقابل، حقق نموذج DeepSeek V4 Pro أقل معدل نجاح، حيث شملت نجاحاته 3 محاولات فقط، لكن بتكلفة منخفضة بلغت 0.62 دولار لكل حل، مما يجعله أكثر كفاءة من حيث التكلفة مقارنة بـ GPT-5.5.
أداء النماذج الأخرى
بالتحليل، أظهر نموذج Claude Sonnet 4.6 وClaude Opus 4.8 نجاحًا محدودًا، بتسجيل محاولتين لكل منهما، حيث اقترب نموذج Opus من الحل عدة مرات قبل أن تتوقف المحاولة نتيجة القيود الأمنية. ومن جهة أخرى، جاء Gemini في نهاية القائمة، إذ رفض معظم المحاولات، مما أدى إلى انخفاض ملحوظ في عدد الرموز المستخدمة مقارنة ببقية النماذج. وقد أظهرت النسخة Gemini Flash سلوكًا مشابهًا مع نجاحات محصورة جدًا.
توجهات وتفضيلات النماذج
كشف الباحث أن النماذج الصينية كانت أكثر قدرة على التفاعل بأريحية مع قواعد البيانات المباشرة، بينما ترددت بعض النماذج الغربية على هذه العملية حتى بعد تحديد المسار الصحيح للحل.
ومع ذلك، أشار الباحث إلى أن هذه التجربة لا تعكس تقييمًا علميًا رسميًا، وإنما تمثل اختباراً عمليًا موثقًا محصورًا في سيناريوهات محددة.
أسئلة شائعة
ما أهمية هذا الاختبار بين نماذج الذكاء الاصطناعي؟
هذا الاختبار يقدم فهماً أفضل للقدرات المختلفة لنماذج الذكاء الاصطناعي في مجال أمن التطبيقات، مما يمكن الشركات والمطورين من اتخاذ قرارات مستندة إلى البيانات عند اختيار الأنظمة المناسبة.
هل توفر النماذج الصينية أماناً أفضل؟
النماذج الصينية أظهرت استعدادًا أكبر للتفاعل مع قواعد البيانات، مما قد يدل على مزايا في معالجة الأمان المباشر، لكن يجب إجراء مزيد من الدراسات لتأكيد هذا التوجه.
تطلعات المستقبل
تتجلى أهمية هذه النتائج في الفضاء الرقمي اليوم، حيث تطورات الذكاء الاصطناعي تتسارع بشكل متزايد. سيساعد هذا الاختبار الشركات على اختيار نماذج أكثر فعالية في تأمين أنظمتها فبدلاً من تقنيات تمثل مجرد أدوات، قد تسهم هذه النماذج في تحسين جودة الأمان السيبراني في المستقبل.
