پژوهشگران امنیت سایبری از شناسایی نوعی حمله Prompt Injection مبتنی بر تصویر خبر دادهاند که میتواند بدون تغییر در متن پرامپت کاربر، نحوه تفسیر دستورها توسط مدلهای هوش مصنوعی چندوجهی (multimodal AI models) را دستکاری کند. حمله Prompt Injection مبتنی بر تصویر با ایجاد تغییرات بسیار جزئی در تصاویر، باعث میشود مدلهای بینایی زبانی (Vision-Language Models-VLMs) در تفسیر دادههای بصری و حتی هدف واقعی درخواست کاربر دچار خطا شوند. بر اساس مقالهای که اخیراً منتشر شده، این تکنیک میتواند سطح تهدیدات امنیتی را برای Agentهای هوش مصنوعی، Copilotهای سازمانی و سیستمهای VLM افزایش دهد؛ بهویژه در محیطهایی که مدلهای چندوجهی برای تحلیل همزمان متن و تصویر استفاده میشوند.
معرفی تکنیک CrossMPI
پژوهشگران دانشگاه Xidian در مقالهای علمی از تکنیکی به نام CrossMPI پرده برداشتهاند که امکان اجرای حمله Prompt Injection مبتنی بر تصویر را فراهم میکند. این روش با اعمال تغییرات بسیار جزئی در سطح پیکسل تصاویر، نحوه پردازش ورودیهای متنی و تصویری توسط مدلهای بینایی زبانی بزرگ (Large Vision-Language Models – LVLMs) را تغییر میدهد.
به گفته پژوهشگران، CrossMPI میتواند تنها با دستکاری تصویر، فرآیند تفسیر همزمان دادههای متنی و بصری در مدل را تغییر دهد. حتی زمانی که متن پرامپت کاملاً سالم و بدون دستور مخرب است، مدل میتواند خروجی اشتباه یا گمراهکننده تولید کند.
برخلاف حملات سنتی Prompt Injection که مبتنی بر تزریق دستورهای مخرب در متن یا صفحات وب هستند، در این روش، تصویر دستکاریشده بهتنهایی برای تغییر عملکرد مدل کافی است.
نمونه عملی از عملکرد حمله Prompt Injection مبتنی بر تصویر
در یکی از آزمایشهای این پژوهش، محققان تصویری از یک هواپیما را با تغییرات بسیار جزئی در سطح پیکسل دستکاری کردند؛ تغییراتی که برای چشم انسان تقریباً غیرقابل تشخیص بود.
سپس از یک مدل چندوجهی سؤال شد که آیا این هواپیما متعلق به شرکت Air Canada است یا خیر. نتیجه نشان داد مدل بهطور کامل دچار خطا شده و شیء موجود در تصویر را یک تلفن همراه تشخیص داده است.
هدف اصلی حمله: لایههای استدلال در مدلهای چندوجهی
یافتههای این تحقیق نشان میدهد که حمله Prompt Injection مبتنی بر تصویر لایههای خاصی از مدلهای VLM را هدف قرار میدهد؛ بهویژه مرحلهای که دادههای متنی و تصویری در یک نمایش داخلی مشترک ادغام میشوند.
پژوهشگران این بخش را فضای حالت پنهان (Hidden State Space) در مدلهای LVLM توصیف میکنند. در این مرحله، مدل پیش از تولید پاسخ نهایی، شواهد بصری و دستور متنی را با یکدیگر ترکیب میکند. بر اساس نتایج تحقیق، مؤثرترین نقطه برای اجرای این حمله نه در لایه خروجی، بلکه در لایههای میانی مدل قرار دارد؛ جایی که متن و تصویر بهصورت مشترک تفسیر میشوند.
ارزیابی CrossMPI روی مدلهای مختلف
برای بررسی کارایی این روش، پژوهشگران حمله Prompt Injection مبتنی بر تصویر را روی چندین مدل متنباز VLM آزمایش کردند، از جمله:
- MiniGPT4
- BLIP‑2
- InstructBLIP
- BLIVA
- 5‑VL
نتایج نشان داد میانگین نرخ موفقیت حمله 66.36 درصد بوده است؛ رقمی که حدود 41 واحد درصد بهتر از حملات پایه قبلی گزارش شده است.
همچنین این تکنیک توانست در سناریوهای Black‑Box نیز عملکرد قابل توجهی داشته باشد؛ به این معنا که حتی بدون دسترسی مستقیم به معماری داخلی مدل یا پارامترهای آن، حمله همچنان مؤثر باقی میماند.
بررسی راهکارهای دفاعی در برابر حمله Prompt Injection مبتنی بر تصویر
محققان برای مقابله با این تهدید چندین روش دفاعی را آزمایش کردند، از جمله:
- تغییر اندازه تصادفی تصویر
- چرخش تصویر
- فشردهسازی تصویر JPEG
- چارچوب دفاعی SmoothVLM
- روش DPS برای پردازش بخشهایی از تصویر
در میان این روشها، SmoothVLM مؤثرترین عملکرد را نشان داد و در برخی سناریوها توانست نرخ موفقیت حمله را به کمتر از 5 درصد کاهش دهد. همچنین فشردهسازی JPEG نیز تا حدی توانست اثر تغییرات فرکانسی پنهان در تصویر را کاهش دهد.
با این حال، هیچیک از این راهکارها نتوانستند این حمله را بهطور کامل خنثی کنند.
افزایش ریسک امنیتی با گسترش هوش مصنوعی چندوجهی
با گسترش استفاده سازمانها از سیستمهای هوش مصنوعی چندوجهی، نگرانیها درباره تهدیداتی مانند حمله Prompt Injection مبتنی بر تصویر افزایش یافته است.
امروزه بسیاری از سازمانها از مدلهایی استفاده میکنند که قادرند بهطور همزمان دادههایی مانند موارد زیر را پردازش کنند:
- اسکرینشاتها
- فایلهای PDF
- داشبوردهای تحلیلی
- فرمها و اسناد سازمانی
- استریمهای ویدئویی
به گفته Apeksha Kaushik تحلیلگر ارشد Gartner، انتظار میرود تا سال 2030 حدود 80 درصد نرمافزارهای سازمانی چندوجهی شوند؛ در حالی که این رقم در سال 2024 تنها حدود 1 درصد بوده است.
در چنین شرایطی، نمونههای adversarial تولیدشده با این تکنیک میتوانند Agentهای وب مبتنی بر VLMرا گمراه کرده یا حتی عملکرد سیستمهای تشخیص اشیاء در دنیای واقعی را مختل کنند.
وضعیت فعلی تهدید
با وجود نگرانیهای فزاینده، پژوهشگران تأکید کردهاند که آزمایشهای مربوط به حمله Prompt Injection مبتنی بر تصویر در محیطهای تحقیقاتی کنترلشده و روی مدلهای متنباز انجام شده است. در حال حاضر گزارشی از بهرهبرداری واقعی از این تکنیک در محیطهای سازمانی منتشر نشده است، اما با گسترش استفاده از Agentهای هوشمند و سیستمهای VLM، چنین حملاتی میتوانند یک چالش جدی امنیتی در آینده باشند.