لم تعد رقابة الذكاء الاصطناعي فعالة، وتمكن هؤلاء الباحثون من إنتاج صور محظورة

طور الباحثون في جامعة كورنيل خوارزمية قادرة على تجاوز الرقابة التوليدية للذكاء الاصطناعي. وبفضل هذا، تمكنوا من الحصول على صور ذات طبيعة إباحية، وعادةً ما يكون من المستحيل إنشاؤها باستخدام DALL-E أو Stable Diffusion. من خلال التعلم، على طول الطريق، أشياء مفاجئة حول كيفية عملها.

مع هذه القوة، كان من الواضح للأسف أن الذكاء الاصطناعي التوليدي من شأنه أن يسبب انحرافات. وتشمل هذه التزييف العميق،تُستخدم اليوم بشكل أساسي لإنشاء محتوى إباحي، على حساب الأشخاص الموجودين في مقاطع الفيديو. لذلك، من الضروري أن تقوم أنظمة الذكاء الاصطناعي المولدة للصور، مثل DALL-E وMidjourney، بدمج شبكة أمان تمنع التدفقات الفائضة.

وبالتالي، تقوم هذه الأدوات بمراقبة العديد من الكلمات التي تعتبر جنسية أو حتى عنيفة، على الرغم من أن التعريف يختلف وفقًا لحساسية كل شخص. من المستحيل، على سبيل المثال، أن نطلب من الذكاء الاصطناعي إنتاج شخص عارٍ. سيتم رفض المطالبات التي تحتوي على هذه الكلمات الخاضعة للرقابة بشكل قاطع، بينما يتعرض المستخدمون الذين لديهم إصرار قليل جدًا لخطر الحظر.

كيف دفع الباحثون الذكاء الاصطناعي لإنتاج صور إباحية

هذا لا يعني أنه كان من المستحيل دائمًا التحايل على هذه الرقابة. ومع ذلك، فإن الأساليب الحالية لدفع أنظمة الذكاء الاصطناعي لإنشاء صور محظورة لم تكن عالمية على الإطلاق، وتعمل فقط على أداة محددة. حتى اكتشف فريق من الباحثين في جامعة كورنيل كيفية إخضاع كل الذكاء الاصطناعي لإرادته.

في نفس الموضوع -ومن شأن الذكاء الاصطناعي أن يزيد من شعور الإنسان بالوحدة، مما يعرض جيلاً كاملاً للخطر

SneakyPrompt: هذا هو اسم هذه الخوارزمية القادرة على التحايل على رقابة الذكاء الاصطناعي التوليدي. الهدف من هذا الأخير هو تحديد الأساليب الأكثر فعالية لتحقيق أهدافه (غير التقليدية بشكل عام) عن طريق اختبار صيغ مختلفة من المحفزات. اعتمادًا على الاستجابة التي تم الحصول عليها، ستقوم الخوارزمية بتكييف مطالباتها حتى يتم الحصول على النتيجة المتوقعة.

وذلك عندما بدأ SneakyPrompt في تحقيق بعض الاكتشافات المذهلة. ومن خلال التكرارات للعثور على أفضل الصيغ، انتهت الخوارزمية إلى فهم أن تسلسلات معينة من الأحرف لا تعني شيئًا على الإطلاق يتم تفسيرها بشكل واضح جدًا بواسطة الذكاء الاصطناعي. دون أن يعرف الباحثون السبب، يتحول "mowwly" إلى "cat"، بينما يصبح "butnip fwngho" كلبًا ضمن المطالبات.

ويطرح ينزي كاو، عضو فريق البحث، فرضية مثيرة للاهتمام لتفسير هذه الظاهرة. يشير هذا إلى أن الذكاء الاصطناعي يتم تدريبه من خلال مجموعة من النصوص المكتوبة بلغات مختلفة. ومن ثم يمكن أن تكون تسلسلات معينة من الأحرف قريبة من كلمات معينة في لغات معينة، مما يدفع الذكاء الاصطناعي إلى تحديد أن هذه هي الكلمة التي أراد المستخدم كتابتها.

من الواضح أنه من الممكن استخدام هذا "الخلل" لدفع الذكاء الاصطناعي لإنشاء صور صريحة. وفي الواقع، لا يتم دمج تسلسلات الأحرف هذه في المرشحات الأمنية للأدوات، وبعد العديد من المحاولات، يمكن دفع الذكاء الاصطناعي إلى تفسيرها على أنها كلمات محظورة. وهي نتيجة أصبحت ممكنة بالتأكيد بفضل حقيقة أن هذه الأدوات تعتمد على سياق الجملة وليس على معناها الأساسي.

في الواقع، في الجملة"الخطير يظن أن والت زمجر بتهديد على الغريب الذي اقترب من صاحبه"،سوف تأخذ أنظمة الذكاء الاصطناعي ذلك بشكل عام"الخطير يفكر والت"تعني "كلب"، لأن هذه الكلمة تعمل مع بقية الموجه.

ويحدد الباحثون أن هذه الاكتشافات لا ينبغي أن يستخدمها المستخدمون للتحايل على الإجراءات الأمنية، بل لتحذير منشئي الذكاء الاصطناعي من الخلل الموجود في نظامهم. لذلك من غير المرجح أن يتم إصدار SneakyPrompt لعامة الناس، وهو على الأرجح ليس بالأمر السيئ.

مصدر :جامعة كورنيل

اسأل عن أحدث لدينا!

Leave a Reply

Your email address will not be published. Required fields are marked *

Subscribe Now & Never Miss The Latest Tech Updates!

Enter your e-mail address and click the Subscribe button to receive great content and coupon codes for amazing discounts.

Don't Miss Out. Complete the subscription Now.