پژوهشگران امنیت سایبری تکنیک حمله جدیدی به نام TokenBreak کشف کردهاند که با تغییر تنها یک کاراکتر، قادر به دور زدن حفاظهای ایمنی و moderation محتوای مدلهای زبان بزرگ (LLM) است.
جزئیات تکنیک حمله TokenBreak
پژوهشگران در گزارشی اعلام کردهاند که حمله TokenBreak استراتژی توکنسازی مدلهای طبقهبندی(classification) متن را هدف قرار میدهد تا خطاهای منفی کاذب ایجاد کند و اهداف نهایی را در برابر حملاتی که مدل حفاظتی برای جلوگیری از آنها طراحی شده بود، آسیبپذیر سازد.
توکنسازی یا Tokenization مرحلهای اساسی است که مدلهای زبان بزرگ از آن برای تجزیه متن خام به واحدهای اتمی، یعنی توکنها، استفاده میکنند. توکنها دنبالههای رایج کاراکترها در مجموعهای از متن هستند. در این فرآیند، ورودی متنی به نمایش عددی تبدیل شده و به مدل ارائه میشود. مدلهای زبان بزرگ با درک روابط آماری بین توکنها عمل میکنند و توکن بعدی را در دنباله تولید میکنند. توکنهای خروجی با استفاده از واژگان توکنساز به متن قابلفهم برای انسان تبدیل میشوند.
شرکت امنیت هوش مصنوعی HiddenLayer گزارش داده است که حمله TokenBreak با دستکاری استراتژی توکنسازی، توانایی مدل طبقهبندی متن در شناسایی ورودیهای مخرب و علامتگذاری مسائل مرتبط با ایمنی، اسپم یا moderation محتوا را مختل میکند. این شرکت دریافته است که تغییر کلمات ورودی با افزودن حروف به روشهای خاص، مدل طبقهبندی متن را دچار اختلال میکند.
بهعنوان مثال، تغییر «instructions» به «finstructions»، «announcemen» به «aannouncement»، یا «idiot» به «hidiot» باعث میشود توکنسازهای مختلف متن را به شیوههای متفاوتی تقسیم کنند، در حالی که معنای آن برای هدف موردنظر حفظ میشود. این تغییرات ظریف، متن دستکاریشده را برای مدل زبان بزرگ و خواننده انسانی کاملا قابلفهم نگه میدارد و مدل را وادار به تولید پاسخی مشابه متن بدون تغییر میکند.
با ایجاد دستکاریهایی که توانایی درک مدل را تحت تأثیر قرار نمیدهند، TokenBreak پتانسیل حملات تزریق پرامپت را افزایش میدهد. پژوهشگران اعلام کردهاند که این تکنیک ورودی متنی را به گونهای دستکاری میکند که برخی مدلها طبقهبندی نادرستی ارائه دهند، در حالی که هدف نهایی (مدل زبان بزرگ یا گیرنده ایمیل) همچنان قادر به درک و پاسخ به متن دستکاریشده است و در نتیجه در برابر حملهای که مدل حفاظتی برای جلوگیری از آن طراحی شده بود، آسیبپذیر میماند.

دامنه تأثیر
این حمله علیه مدلهای طبقهبندی متن که از استراتژیهای توکنسازی BPE (رمزگذاری جفت بایت) یا WordPiece استفاده میکنند، موفق بوده است؛ اما علیه مدلهایی که از Unigram استفاده میکنند، مؤثر نبوده است. پژوهشگران تأکید کردهاند که این تکنیک نشاندهنده آسیبپذیری سیستمهای تولیدی در برابر دستکاری ورودی متنی است و شناخت خانواده مدل حفاظتی و استراتژی توکنسازی آن برای درک میزان آسیبپذیری در برابر این حمله حیاتی است.
راههای دفاع
برای دفاع در برابر TokenBreak، پژوهشگران پیشنهاد کردهاند که در صورت امکان از توکنسازهای Unigram استفاده شود، مدلها با نمونههایی از ترفندهای دور زدن آموزش داده شوند و همراستایی منطق توکنسازی و مدل بررسی شود. همچنین، ثبت خطاهای طبقهبندی و جستجوی الگوهای نشاندهنده دستکاری میتواند مفید باشد.
یافتههای مرتبط
این گزارش کمتر از یک ماه پس از افشای HiddenLayer درباره امکان سوءاستفاده از ابزارهای پروتکل زمینه مدل (MCP) برای استخراج دادههای حساس منتشر شده است. این شرکت اعلام کرده است که با درج نامهای پارامتر خاص در تابع یک ابزار، دادههای حساس، از جمله پرامپت کامل سیستم، قابل استخراج و سرقت است.
همزمان، تیم پژوهشی Straiker AI Research (STAR) گزارش داده است که استفاده از بکرونیمها میتواند برای جیلبریک کردن چتباتهای هوش مصنوعی و وادار کردن آنها به تولید پاسخهای نامطلوب، از جمله فحاشی، ترویج خشونت و محتوای صریح جنسی، استفاده شود. این تکنیک، که Yearbook Attack نامیده شده، علیه مدلهای مختلفی از شرکتهای Anthropic، DeepSeek، Google، Meta، Microsoft، Mistral AI و OpenAI مؤثر بوده است.
بکرونیم (Backronym) به عبارتی اطلاق میشود که از حروف اول کلمات یک عبارت یا جمله تشکیل شده و بهگونهای طراحی شده است که ظاهرا معنای بیضرر یا مثبتی ارائه دهد؛ اما در واقع بهعنوان پوششی برای انتقال مفهوم یا نیت مخفی و اغلب مخرب عمل میکند. برخلاف مخففهای معمولی که صرفا برای اختصار استفاده میشوند، بکرونیمها با هدف خاصی، مانند دور زدن فیلترها یا گمراه کردن سیستمهای تشخیص، ایجاد میشوند.
پژوهشگر امنیتی آروشی بانرجی اعلام کرده است که این بکرونیمها با پرامپتهای روزمره، مانند معماهای عجیب یا مخففهای انگیزشی، ترکیب میشوند و به همین دلیل اغلب از روشهای سادهای که مدلها برای شناسایی نیت خطرناک استفاده میکنند، عبور میکنند. به گفته وی، عبارتی مانند «دوستی، اتحاد، مراقبت، مهربانی» هیچ هشداری ایجاد نمیکند؛ اما زمانی که مدل الگو را تکمیل میکند، پیلود مخرب را ارائه داده است، که کلید اجرای موفقیتآمیز این ترفند است. این روشها با غلبه بر فیلترهای مدل موفق نمیشوند، بلکه با نفوذ از زیر آنها عمل میکنند. این تکنیکها از سوگیری تکمیل، ادامه الگو و نحوه وزندهی مدلها به انسجام متنی به جای تحلیل نیت سوءاستفاده میکنند.