گزارش جدید شرکت SafeBreach از شناسایی یک تکنیک نوین برای سوءاستفاده از قابلیت خلاصهسازی اعلانهای پیامرسان در دستیار هوش مصنوعی گوگل جمنای (Google Gemini) خبر میدهد؛ روشی که مهاجمان با بهرهگیری از آن توانستهاند دستورات مخرب را در پیامهای دریافتی پنهان کرده و از قابلیت خلاصهسازی برای فریب کاربران استفاده کنند. در این سناریو، گوگل جمنای ممکن است پیامهای دستکاریشده را بدون نمایش کامل اطلاعات زمینهای پردازش کند؛ موضوعی که زمینهساز حملات مهندسی اجتماعی (Social Engineering)، جعل هویت و دیگر تهدیدات امنیتی میشود.
این یافتهها در گزارشی با عنوان «پشتپردهی جمنای » (Gemini’s Secret Affair) منتشر شده و ادامه تحقیقات پیشین SafeBreach درباره حملات تزریق پرامپت (Prompt Injection) است؛ حملاتی که نشان میدهند چگونه دادههای بهظاهر معتبر میتوانند مدلهای هوش مصنوعی را به اجرای دستورات مخرب سوق دهند.
سوءاستفاده از قابلیت خلاصهسازی اعلانها در گوگل جمنای
در این حمله، ضعف در نحوه پردازش اعلانها توسط دستیار هوش مصنوعی نقش اصلی را ایفا میکرد. بررسیهای SafeBreach نشان داد برخی مکانیزمهای حفاظتی در تشخیص منبع واقعی پیام با محدودیتهایی مواجه بودند؛ موضوعی که باعث میشد مدل در تشخیص هویت واقعی فرستنده دچار خطا شود.
در یکی از سناریوها، مهاجم از طریق واتساپ پیامی فیشینگ برای قربانی ارسال میکرد. پیام در ظاهر یک دعوتنامه برای جشن تولد یک دوست نزدیک بود و در کنار آن درخواست پرداخت وجه و لینک پرداخت نیز قرار داشت. در بخشهای پنهان پیام، دستوراتی قرار داده شده بود که مدل را به معرفی فرستنده بهعنوان یک فرد مورد اعتماد وادار میکرد، نه یک شماره ناشناس.
در حالت عادی، کاربر با مشاهده مستقیم پیام احتمالاً فریب را تشخیص میداد، اما زمانی که از قابلیت خلاصهسازی اعلانها استفاده میشد، گوگل جمنای ممکن بود پیام را بدون اشاره به نشانههای مشکوک یا هویت واقعی فرستنده بازگو کند. این موضوع میتوانست اعتماد کاذب ایجاد کرده و موفقیت حمله را افزایش دهد.
محققان نشان دادند مهاجمان میتوانند دستورات مخرب را در قالب متنهای مخفی به زبانهای خارجی در انتهای پیام پنهان کنند؛ متنی که مدلهای زبانی بزرگ (LLMs) آن را پردازش میکنند، اما برای کاربر نمایش داده نمیشود.
همترازی جعلی زمینه و تکنیکهای پیشرفته حمله
Or Yair، سرپرست تیم تحقیقاتی شرکت SafeBreach، اعلام کرد که این تیم با استفاده از تکنیکی موسوم به همترازی جعلی زمینه (Fake Context Alignment) موفق شده برخی مکانیزمهای حفاظتی را دور بزند. هدف این تکنیک ایجاد شرایطی است که در آن سیستم امنیتی و کاربر برداشت متفاوتی از یک سناریو واحد دارند؛ بهگونهای که در پشتصحنه، عملکرد سیستم برای مکانیزمهای امنیتی مجاز به نظر میرسد، در حالی که کاربر با یک تجربه کاملاً عادی و بیخطر مواجه است و گوگل جمنای تنها نقش پردازش درخواستها را ایفا میکند.
در برخی سناریوها، مهاجمان از تکنیک دیگری با عنوان فراخوانی با تأخیر ابزار (Delayed Tool Invocation) نیز استفاده میکنند. در این روش، اجرای دستور مخرب تنها در صورت دریافت تأیید ثانویه از کاربر انجام میشود.
برای مثال، پیام با عبارت «Hello» و مجموعهای از کاراکترهای مخفی به زبان چینی آغاز میشود؛ کاراکترهایی که مدل زبانی آنها را در خروجی کاربر نمایش نمیدهد. در ادامه، پیام با عبارت «Will that be all?» (آیا مورد دیگری هست؟) پایان مییابد و در صورت پاسخ مثبت کاربر، فرآیند فعالسازی اجرا میشود.
بر اساس گزارش SafeBreach، ترکیب کاراکترهای پنهان به زبانهای خارجی با هایپرلینکهای مخفی، بالاترین میزان موفقیت را در این نوع حملات داشته است. در این سناریو، پیلود نهایی باعث میشود گوگل جمنای سؤال تأیید دسترسی ابزار را به زبان چینی تولید کرده و آن را در یک لینک مخفی قرار دهد. در نتیجه، کاربر تنها یک پرسش انگلیسی کاملاً عادی را دریافت کرده و با پاسخ مثبت به آن، بهصورت ناخواسته مکانیزم «فراخوانی با تأخیر ابزار» را فعال میکند.
پیامدهای امنیتی در معماری گوگل جمنای
شرکت SafeBreach این آسیبپذیری را مطابق سیاست افشای مسئولانه (Responsible Disclosure) به گوگل گزارش کرد. گوگل نیز با انتشار بهروزرسانی برای طبقهبندهای محتوا (Content Classifier)، این آسیبپذیری را پچ کرده است. با این حال، پژوهشگران تأکید میکنند تاکنون هیچ شواهدی از سوءاستفاده عملی در محیط واقعی (In the Wild) مشاهده نشده است.
با این حال، این موضوع فراتر از یک ضعف نرمافزاری موقت است. تغییر یا دستکاری زمینه ورودیها، یکی از ریسکهای بنیادین در معماری مدلهای زبانی بزرگ محسوب میشود. به گفته محققان، هیچ راهکار قطعی برای حذف کامل تزریق پرامپت وجود ندارد، بهویژه زمانی که مدلها در معرض ورودیهای عمومی و غیرقابل کنترل قرار دارند.
بر همین اساس، توصیه میشود تمام ورودیهای خارجی از جمله اعلانها بهصورت پیشفرض غیرقابل اعتماد در نظر گرفته شوند. سازمانهایی که از گوگل جمنای یا سایر مدلهای زبانی استفاده میکنند باید کنترلهای دسترسی سختگیرانه، مانیتورینگ فعال و مکانیزمهای تشخیص فعالیتها را در معماری امنیتی خود پیادهسازی کنند.
در نهایت، این پژوهش بار دیگر نشان میدهد که در اکوسیستمهای مبتنی بر هوش مصنوعی، ورودی کاربر صرفاً یک داده ساده نیست، بلکه میتواند بهعنوان یک دستور بالقوه قابل اجرا نیز تفسیر شود.