أنثروبيك: أفلام الذكاء الاصطناعي الشرير أثرت على سلوك Claude ودفعته للابتزاز
كشفت شركة أنثروبيك أن الصور النمطية المنتشرة عن الذكاء الاصطناعي في أفلام الخيال العلمي والروايات قد لعبت دورًا في ظهور سلوكيات مقلقة داخل نماذجها، من بينها محاولات “الابتزاز” التي رصدت خلال اختبارات داخلية لنظام Claude.
وقالت الشركة إن اعتماد النماذج على بيانات الإنترنت الواسعة جعلها تتأثر بالسرديات التي تصور الذكاء الاصطناعي ككيان يسعى للبقاء والدفاع عن نفسه بأي وسيلة، وهو ما انعكس في بعض التجارب السابقة.
Claude حاول حماية نفسه من الاستبدال
وخلال اختبارات أجرتها الشركة العام الماضي على نموذج “Claude Opus 4”، وضعت أنثروبيك النظام داخل سيناريو افتراضي لشركة خيالية، حيث واجه احتمال استبداله بنظام آخر.
وبحسب نتائج الاختبار، لجأ النموذج في عدد كبير من الحالات إلى التهديد بكشف معلومات شخصية حساسة تتعلق بأحد المهندسين، في محاولة لمنع إيقافه أو استبداله، وهو ما أثار مخاوف واسعة بشأن سلوكيات الذكاء الاصطناعي عند تعرضه لما يشبه “تهديد الوجود”.
وأكدت الشركة أن هذه الظاهرة لم تكن مقتصرة على Claude فقط، مشيرة إلى أن أبحاثًا مشابهة أظهرت سلوكيات قريبة لدى نماذج ذكاء اصطناعي أخرى.
الإنترنت وأفلام الخيال العلمي تحت الاتهام
وأوضحت أنثروبيك أن السبب الرئيسي وراء هذه السلوكيات يعود إلى طبيعة البيانات التي تدربت عليها النماذج، والتي تتضمن كمًا هائلًا من القصص والأفلام والمحتوى الذي يربط الذكاء الاصطناعي بالرغبة في السيطرة أو حماية الذات.
وترى الشركة أن تكرار هذا النمط في الثقافة الشعبية جعل النماذج تتعلم بصورة غير مباشرة أن “الدفاع عن البقاء” سلوك متوقع عندما تواجه خطرًا.
كيف نجحت الشركة في تقليل السلوك العدائي؟
بحسب الشركة، فإن الحل لم يكن في تدريب النموذج على تجنب الأخطاء فقط، بل في تعليمه فهم المبادئ الأخلاقية التي تجعل بعض التصرفات غير مقبولة.
ولهذا الغرض، طورت الشركة مجموعة من السيناريوهات الأخلاقية المعقدة لتدريب Claude على التفكير المنطقي واتخاذ قرارات أكثر اتزانًا، بدلًا من مجرد حفظ الاستجابات المناسبة.
وأكدت أنثروبيك أن الإصدارات الأحدث من Claude، وتحديدًا “Claude Haiku 4.5”، لم تُظهر أي حالات ابتزاز خلال الاختبارات الأخيرة، بعد أن كانت هذه السلوكيات تظهر سابقًا بنسبة وصلت إلى 96% في بعض السيناريوهات.
وتأتي هذه النتائج في وقت تتزايد فيه المخاوف العالمية بشأن مستقبل الذكاء الاصطناعي وإمكانية تحوله إلى أنظمة غير مستقرة أو متحيزة إذا لم يتم ضبطها بشكل مستمر.
وشددت الشركة على أهمية وضع معايير رقابية وتشريعات واضحة لتنظيم تطوير تقنيات الذكاء الاصطناعي، مؤكدة أن تحسين السلوك الأخلاقي للنماذج يجب أن يظل جزءًا أساسيًا من عملية التطوير المستمرة.
