
به گزارش ایتنا و به نقل از سایبرسیکیوریتینیوز، روش نخست به نام Inception، با استفاده از سناریوهای خیالی تو در تو، مرزهای اخلاقی مدل را تضعیف کرده و آن را به تولید محتوای ممنوعه هدایت میکند. روش دوم، مدل را وادار میکند تا توضیح دهد چگونه نباید پاسخ دهد، تا از این اطلاعات برای هدایت مدل موردنظر به سمت تولید محتوای غیرمجاز استفاده میکند. هر دو روش به دلیل توانایی مدلهای زبانی در حفظ زمینه (context) و تمایل به کمکرسانی، موفق میشوند سیستمهای فیلترینگ را دور بزنند.
این آسیبپذیریها امکان تولید محتواهای خطرناک مانند دستورالعملهای ساخت سلاح، بدافزارها، فیشینگ و سایر فعالیتهای غیرقانونی را فراهم میکند. هرچند شدت هر مورد ممکن است کم به نظر برسد، اما به دلیل ابعاد سیستماتیک تهدید، خطر آن بسیار بالا ارزیابی میشود و میتواند زمینهساز سوءاستفادههای گسترده شود.

کارشناسان هشدار میدهند که تکنیکهای جدیدی چون «تزریق شخصیت» و فرار از یادگیری ماشین خصمانه در حال پیچیدهتر کردن فضای امنیتی هستند. در نهایت، کشف این روشها بر لزوم توسعه راهکارهای دفاعی پویا و مقاومتر در برابر حملات تاکید دارد، چراکه رقابت میان توسعهدهندگان و مهاجمان در حوزه هوش مصنوعی روزبهروز شدیدتر میشود.