خانه » حمله Prompt Injection مبتنی بر تصویر، مدل‌های هوش مصنوعی چندوجهی را هدف قرار می‌دهد

حمله Prompt Injection مبتنی بر تصویر، مدل‌های هوش مصنوعی چندوجهی را هدف قرار می‌دهد

توسط Vulnerbyte_News
14 بازدید

پژوهشگران امنیت سایبری از شناسایی نوعی حمله Prompt Injection مبتنی بر تصویر خبر داده‌اند که می‌تواند بدون تغییر در متن پرامپت کاربر، نحوه تفسیر دستورها توسط مدل‌های هوش مصنوعی چندوجهی (multimodal  AI models) را دستکاری کند. حمله Prompt Injection مبتنی بر تصویر با ایجاد تغییرات بسیار جزئی در تصاویر، باعث می‌شود مدل‌های بینایی زبانی (Vision-Language Models-VLMs) در تفسیر داده‌های بصری و حتی هدف واقعی درخواست کاربر دچار خطا شوند. بر اساس مقاله‌ای که اخیراً منتشر شده، این تکنیک می‌تواند سطح تهدیدات امنیتی را برای Agentهای هوش مصنوعی، Copilotهای سازمانی و سیستم‌های VLM افزایش دهد؛ به‌ویژه در محیط‌هایی که مدل‌های چندوجهی برای تحلیل هم‌زمان متن و تصویر استفاده می‌شوند.

معرفی تکنیک CrossMPI

پژوهشگران دانشگاه Xidian در مقاله‌ای علمی از تکنیکی به نام CrossMPI پرده برداشته‌اند که امکان اجرای حمله Prompt Injection مبتنی بر تصویر را فراهم می‌کند. این روش با اعمال تغییرات بسیار جزئی در سطح پیکسل تصاویر، نحوه پردازش ورودی‌های متنی و تصویری توسط مدل‌های بینایی زبانی بزرگ (Large Vision-Language Models – LVLMs) را تغییر می‌دهد.

به گفته پژوهشگران، CrossMPI می‌تواند تنها با دستکاری تصویر، فرآیند تفسیر هم‌زمان داده‌های متنی و بصری در مدل را تغییر دهد. حتی زمانی که متن پرامپت کاملاً سالم و بدون دستور مخرب است، مدل می‌تواند خروجی اشتباه یا گمراه‌کننده تولید کند.

برخلاف حملات سنتی Prompt Injection که مبتنی بر تزریق دستورهای مخرب در متن یا صفحات وب هستند، در این روش، تصویر دستکاری‌شده به‌تنهایی برای تغییر عملکرد مدل کافی است.

نمونه عملی از عملکرد حمله Prompt Injection مبتنی بر تصویر

در یکی از آزمایش‌های این پژوهش، محققان تصویری از یک هواپیما را با تغییرات بسیار جزئی در سطح پیکسل دستکاری کردند؛ تغییراتی که برای چشم انسان تقریباً غیرقابل تشخیص بود.

سپس از یک مدل چندوجهی سؤال شد که آیا این هواپیما متعلق به شرکت Air Canada است یا خیر. نتیجه نشان داد مدل به‌طور کامل دچار خطا شده و شیء موجود در تصویر را یک تلفن همراه تشخیص داده است.

هدف اصلی حمله: لایه‌های استدلال در مدل‌های چندوجهی

یافته‌های این تحقیق نشان می‌دهد که حمله Prompt Injection مبتنی بر تصویر لایه‌های خاصی از مدل‌های VLM را هدف قرار می‌دهد؛ به‌ویژه مرحله‌ای که داده‌های متنی و تصویری در یک نمایش داخلی مشترک ادغام می‌شوند.

پژوهشگران این بخش را فضای حالت پنهان (Hidden State Space) در مدل‌های LVLM توصیف می‌کنند. در این مرحله، مدل پیش از تولید پاسخ نهایی، شواهد بصری و دستور متنی را با یکدیگر ترکیب می‌کند. بر اساس نتایج تحقیق، مؤثرترین نقطه برای اجرای این حمله نه در لایه خروجی، بلکه در لایه‌های میانی مدل قرار دارد؛ جایی که متن و تصویر به‌صورت مشترک تفسیر می‌شوند.

ارزیابی CrossMPI روی مدل‌های مختلف

برای بررسی کارایی این روش، پژوهشگران حمله Prompt Injection مبتنی بر تصویر را روی چندین مدل متن‌باز VLM آزمایش کردند، از جمله:

  • MiniGPT4
  • BLIP‑2
  • InstructBLIP
  • BLIVA
  • 5‑VL

نتایج نشان داد میانگین نرخ موفقیت حمله 66.36 درصد بوده است؛ رقمی که حدود 41 واحد درصد بهتر از حملات پایه قبلی گزارش شده است.

همچنین این تکنیک توانست در سناریوهای Black‑Box نیز عملکرد قابل توجهی داشته باشد؛ به این معنا که حتی بدون دسترسی مستقیم به معماری داخلی مدل یا پارامترهای آن، حمله همچنان مؤثر باقی می‌ماند.

بررسی راهکارهای دفاعی در برابر حمله Prompt Injection مبتنی بر تصویر

محققان برای مقابله با این تهدید چندین روش دفاعی را آزمایش کردند، از جمله:

  • تغییر اندازه تصادفی تصویر
  • چرخش تصویر
  • فشرده‌سازی تصویر JPEG 
  • چارچوب دفاعی SmoothVLM
  • روش DPS برای پردازش بخش‌هایی از تصویر

در میان این روش‌ها، SmoothVLM مؤثرترین عملکرد را نشان داد و در برخی سناریوها توانست نرخ موفقیت حمله را به کمتر از 5 درصد کاهش دهد. همچنین فشرده‌سازی JPEG نیز تا حدی توانست اثر تغییرات فرکانسی پنهان در تصویر را کاهش دهد.

با این حال، هیچ‌یک از این راهکارها نتوانستند این حمله را به‌طور کامل خنثی کنند.

افزایش ریسک امنیتی با گسترش هوش مصنوعی چندوجهی

با گسترش استفاده سازمان‌ها از سیستم‌های هوش مصنوعی چندوجهی، نگرانی‌ها درباره تهدیداتی مانند حمله Prompt Injection مبتنی بر تصویر افزایش یافته است.

امروزه بسیاری از سازمان‌ها از مدل‌هایی استفاده می‌کنند که قادرند به‌طور هم‌زمان داده‌هایی مانند موارد زیر را پردازش کنند:

  • اسکرین‌شات‌ها
  • فایل‌های PDF 
  • داشبوردهای تحلیلی
  • فرم‌ها و اسناد سازمانی 
  • استریم‌های ویدئویی

به گفته Apeksha Kaushik تحلیلگر ارشد Gartner، انتظار می‌رود تا سال 2030 حدود 80 درصد نرم‌افزارهای سازمانی چندوجهی شوند؛ در حالی که این رقم در سال 2024 تنها حدود 1 درصد بوده است.

در چنین شرایطی، نمونه‌های adversarial تولیدشده با این تکنیک می‌توانند Agentهای وب مبتنی بر VLMرا گمراه کرده یا حتی عملکرد سیستم‌های تشخیص اشیاء در دنیای واقعی را مختل کنند.

 وضعیت فعلی تهدید

با وجود نگرانی‌های فزاینده، پژوهشگران تأکید کرده‌اند که آزمایش‌های مربوط به حمله Prompt Injection مبتنی بر تصویر در محیط‌های تحقیقاتی کنترل‌شده و روی مدل‌های متن‌باز انجام شده است. در حال حاضر گزارشی از بهره‌برداری واقعی از این تکنیک در محیط‌های سازمانی منتشر نشده است، اما با گسترش استفاده از Agentهای هوشمند و سیستم‌های VLM، چنین حملاتی می‌توانند یک چالش جدی امنیتی در آینده باشند.

منابع

همچنین ممکن است دوست داشته باشید

پیام بگذارید