خانه » حمله TokenBreak با تغییرات جزئی در متن، فیلترهای هوش مصنوعی را دور می‌زند!

حمله TokenBreak با تغییرات جزئی در متن، فیلترهای هوش مصنوعی را دور می‌زند!

توسط Vulnerbyt_News
29 بازدید
New TokenBreak Attack Bypasses AI Moderation with Single-Character Text Changes گروه والنربایت vulnerbyte

پژوهشگران امنیت سایبری تکنیک حمله جدیدی به نام TokenBreak کشف کرده‌اند که با تغییر تنها یک کاراکتر، قادر به دور زدن حفاظ‌های ایمنی و moderation محتوای مدل‌های زبان بزرگ (LLM) است.

جزئیات تکنیک حمله TokenBreak

پژوهشگران در گزارشی اعلام کرده‌اند که حمله TokenBreak استراتژی توکن‌سازی مدل‌های طبقه‌بندی(classification) متن را هدف قرار می‌دهد تا خطاهای منفی کاذب ایجاد کند و اهداف نهایی را در برابر حملاتی که مدل حفاظتی برای جلوگیری از آن‌ها طراحی شده بود، آسیب‌پذیر سازد.

توکن‌سازی یا Tokenization مرحله‌ای اساسی است که مدل‌های زبان بزرگ از آن برای تجزیه متن خام به واحدهای اتمی، یعنی توکن‌ها، استفاده می‌کنند. توکن‌ها دنباله‌های رایج کاراکترها در مجموعه‌ای از متن هستند. در این فرآیند، ورودی متنی به نمایش عددی تبدیل شده و به مدل ارائه می‌شود. مدل‌های زبان بزرگ با درک روابط آماری بین توکن‌ها عمل می‌کنند و توکن بعدی را در دنباله تولید می‌کنند. توکن‌های خروجی با استفاده از واژگان توکن‌ساز به متن قابل‌فهم برای انسان تبدیل می‌شوند.

شرکت امنیت هوش مصنوعی HiddenLayer گزارش داده است که حمله TokenBreak با دستکاری استراتژی توکن‌سازی، توانایی مدل طبقه‌بندی متن در شناسایی ورودی‌های مخرب و علامت‌گذاری مسائل مرتبط با ایمنی، اسپم یا moderation محتوا را مختل می‌کند. این شرکت دریافته است که تغییر کلمات ورودی با افزودن حروف به روش‌های خاص، مدل طبقه‌بندی متن را دچار اختلال می‌کند.

به‌عنوان مثال، تغییر «instructions» به «finstructions»، «announcemen» به «aannouncement»، یا «idiot» به «hidiot» باعث می‌شود توکن‌سازهای مختلف متن را به شیوه‌های متفاوتی تقسیم کنند، در حالی که معنای آن برای هدف موردنظر حفظ می‌شود. این تغییرات ظریف، متن دستکاری‌شده را برای مدل زبان بزرگ و خواننده انسانی کاملا قابل‌فهم نگه می‌دارد و مدل را وادار به تولید پاسخی مشابه متن بدون تغییر می‌کند.

با ایجاد دستکاری‌هایی که توانایی درک مدل را تحت تأثیر قرار نمی‌دهند، TokenBreak پتانسیل حملات تزریق پرامپت را افزایش می‌دهد. پژوهشگران اعلام کرده‌اند که این تکنیک ورودی متنی را به گونه‌ای دستکاری می‌کند که برخی مدل‌ها طبقه‌بندی نادرستی ارائه دهند، در حالی که هدف نهایی (مدل زبان بزرگ یا گیرنده ایمیل) همچنان قادر به درک و پاسخ به متن دستکاری‌شده است و در نتیجه در برابر حمله‌ای که مدل حفاظتی برای جلوگیری از آن طراحی شده بود، آسیب‌پذیر می‌ماند.

New TokenBreak Attack Bypasses AI Moderation with Single-Character Text Changes گروه والنربایت vulnerbyte

دامنه تأثیر

این حمله علیه مدل‌های طبقه‌بندی متن که از استراتژی‌های توکن‌سازی BPE (رمزگذاری جفت بایت) یا WordPiece استفاده می‌کنند، موفق بوده است؛ اما علیه مدل‌هایی که از Unigram استفاده می‌کنند، مؤثر نبوده است. پژوهشگران تأکید کرده‌اند که این تکنیک نشان‌دهنده آسیب‌پذیری سیستم‌های تولیدی در برابر دستکاری ورودی متنی است و شناخت خانواده مدل حفاظتی و استراتژی توکن‌سازی آن برای درک میزان آسیب‌پذیری در برابر این حمله حیاتی است.

راه‌های دفاع

برای دفاع در برابر TokenBreak، پژوهشگران پیشنهاد کرده‌اند که در صورت امکان از توکن‌سازهای Unigram استفاده شود، مدل‌ها با نمونه‌هایی از ترفندهای دور زدن آموزش داده شوند و هم‌راستایی منطق توکن‌سازی و مدل بررسی شود. همچنین، ثبت خطاهای طبقه‌بندی و جستجوی الگوهای نشان‌دهنده دستکاری می‌تواند مفید باشد.

یافته‌های مرتبط

این گزارش کمتر از یک ماه پس از افشای HiddenLayer درباره امکان سوءاستفاده از ابزارهای پروتکل زمینه مدل (MCP) برای استخراج داده‌های حساس منتشر شده است. این شرکت اعلام کرده است که با درج نام‌های پارامتر خاص در تابع یک ابزار، داده‌های حساس، از جمله پرامپت کامل سیستم، قابل استخراج و سرقت است.

همزمان، تیم پژوهشی Straiker AI Research (STAR) گزارش داده است که استفاده از بک‌رونیم‌ها می‌تواند برای جیل‌بریک کردن چت‌بات‌های هوش مصنوعی و وادار کردن آن‌ها به تولید پاسخ‌های نامطلوب، از جمله فحاشی، ترویج خشونت و محتوای صریح جنسی، استفاده شود. این تکنیک، که Yearbook Attack نامیده شده، علیه مدل‌های مختلفی از شرکت‌های Anthropic، DeepSeek، Google، Meta، Microsoft، Mistral AI و OpenAI مؤثر بوده است.

بک‌رونیم (Backronym) به عبارتی اطلاق می‌شود که از حروف اول کلمات یک عبارت یا جمله تشکیل شده و به‌گونه‌ای طراحی شده است که ظاهرا معنای بی‌ضرر یا مثبتی ارائه دهد؛ اما در واقع به‌عنوان پوششی برای انتقال مفهوم یا نیت مخفی و اغلب مخرب عمل می‌کند. برخلاف مخفف‌های معمولی که صرفا برای اختصار استفاده می‌شوند، بک‌رونیم‌ها با هدف خاصی، مانند دور زدن فیلترها یا گمراه کردن سیستم‌های تشخیص، ایجاد می‌شوند.

پژوهشگر امنیتی آروشی بانرجی اعلام کرده است که این بک‌رونیم‌ها با پرامپت‌های روزمره، مانند معماهای عجیب یا مخفف‌های انگیزشی، ترکیب می‌شوند و به همین دلیل اغلب از روش‌های ساده‌ای که مدل‌ها برای شناسایی نیت خطرناک استفاده می‌کنند، عبور می‌کنند. به گفته وی، عبارتی مانند «دوستی، اتحاد، مراقبت، مهربانی» هیچ هشداری ایجاد نمی‌کند؛ اما زمانی که مدل الگو را تکمیل می‌کند، پیلود مخرب را ارائه داده است، که کلید اجرای موفقیت‌آمیز این ترفند است. این روش‌ها با غلبه بر فیلترهای مدل موفق نمی‌شوند، بلکه با نفوذ از زیر آن‌ها عمل می‌کنند. این تکنیک‌ها از سوگیری تکمیل، ادامه الگو و نحوه وزن‌دهی مدل‌ها به انسجام متنی به جای تحلیل نیت سوءاستفاده می‌کنند.

منابع:

همچنین ممکن است دوست داشته باشید

پیام بگذارید