خانه » کشف نزدیک به ۱۲,۰۰۰ کلید API و گذرواژه در مجموعه داده‌های آموزشی هوش مصنوعی

کشف نزدیک به ۱۲,۰۰۰ کلید API و گذرواژه در مجموعه داده‌های آموزشی هوش مصنوعی

توسط Vulnerbyt_News
nearly-12-000-api-keys-and-passwords-found-in-ai-training-dataset گروه والنربایت vulnerbyte

تقریباً ۱۲,۰۰۰ کلید و گذرواژه معتبر API در مجموعه داده‌های Common Crawl که برای آموزش مدل‌های مختلف هوش مصنوعی استفاده می‌شود، کشف شده است.

سازمان غیرانتفاعی Common Crawl یک مخزن عظیم و متن‌باز از داده‌های وب بسیار زیاد را نگهداری می‌کند که از سال ۲۰۰۸ جمع‌آوری شده و به‌صورت رایگان در دسترس همگان قرار دارد.

به دلیل گستردگی این مجموعه داده، بسیاری از پروژه‌های هوش مصنوعی ممکن است حداقل تا حدی برای داده‌های آموزشی هوش مصنوعی و آموزش مدل‌های زبانی بزرگ (LLM) به این آرشیو دیجیتال متکی باشند. شرکت‌هایی مانند OpenAI، DeepSeek، گوگل، متا، Anthropic و Stability  از جمله استفاده‌کنندگان این مجموعه داده هستند.

کلیدهای روت AWS و کلیدهای APIمربوط به MailChimp در داده‌های آموزشی هوش مصنوعی

محققان شرکت Truffle Security، که توسعه‌دهنده ابزار TruffleHog برای اسکن داده‌های حساس است، با بررسی ۴۰۰ ترابایت داده از ۲.۶۷ میلیارد صفحه وب در آرشیو دسامبر ۲۰۲۴ سازمان Common Crawl، این اطلاعات حساس را کشف کردند.

آن‌ها دریافتند که ۱۱,۹۰۸ کلید و گذرواژه افشا شده هنوز معتبر و قابل استفاده هستند. این موارد اغلب توسط توسعه‌دهندگان در کدهایشان به‌صورت هاردکد شده  قرار گرفته‌اند، که نشان‌دهنده احتمال آموزش مدل‌های LLM با کدهای ناایمن است.

در تحقیق انجام‌شده، فقط کلیدها و گذرواژه‌های فعال (Live Secrets) گزارش شده‌اند. این موارد شامل کلیدهای API، گذرواژه‌ها و سایر اطلاعات احراز هویت هستند که با سرویس‌های مربوطه به‌طور موفقیت‌آمیز تأیید شده‌اند. با وجود اینکه هزاران کلید و گذرواژه معتبر شناسایی شد، تعداد رشته‌هایی که ظاهراً شبیه به کلیدهای حساس هستند اما تأیید نشده‌اند، بسیار بیشتر است.

nearly-12-000-api-keys-and-passwords-found-in-ai-training-dataset گروه والنربایت vulnerbyte
نمونه کلید نامعتبر که در گزارش های شرکت Truffle Security آمده است

از سوی دیگر، مدل‌های زبان بزرگ (LLM) در مرحله آموزش قادر به تشخیص بین کلیدهای معتبر و نامعتبر نیستند. این بدان معناست که هم کلیدهای واقعی و هم نمونه‌های نادرست در داده‌های آموزشی، به یک اندازه در شکل‌گیری الگوهای ناامن در تولید کد تأثیر می‌گذارند. گرچه داده‌های آموزشی مدل‌های زبانی بزرگ قبل از پردازش اولیه فیلتر و پاک‌سازی می‌شوند تا اطلاعات نامرتبط، تکراری، مضر یا حساس حذف شوند؛ اما همچنان احتمال باقی ماندن داده‌های محرمانه وجود دارد. این فرآیند هیچ تضمینی برای حذف کامل اطلاعات شناسایی شخصی(PII)، داده‌های مالی، سوابق پزشکی و سایر اطلاعات حساس ارائه نمی‌دهد.

تحلیل داده‌های اسکن شده نشان داد که کلیدهای API معتبر مربوط به خدمات Amazon Web Services (AWS) ،MailChimp و WalkScore در این مجموعه وجود دارد.

nearly-12-000-api-keys-and-passwords-found-in-ai-training-dataset گروه والنربایت vulnerbyte
کلید روت AWS در قسمت فرانت اند با فرمت HTML

در مجموع، ابزار TruffleHog موفق به شناسایی ۲۱۹ نوع مختلف از داده‌های حساس در مجموعه دیتای Common Crawl شد، که رایج‌ترین آن‌ها کلیدهای API مربوط به MailChimp بود.

طبق یافته‌های محققان، تقریباً ۱,۵۰۰ کلید API مربوط به MailChimp به ‌صورت هاردکد شده در کدهای HTML و JavaScript قسمت فرانت‌اند قرار داشتند. این اشتباه به این دلیل رخ داده که توسعه‌دهندگان به‌جای استفاده از متغیرهای محیطی در سمت سرور، این کلیدها را مستقیماً در کدهای سمت کاربر قرار داده‌اند.

nearly-12-000-api-keys-and-passwords-found-in-ai-training-dataset گروه والنربایت vulnerbyte
کلید API مربوط به MailChimp در قسمت فرانت اند با فرمت HTML

افشای این کلیدها می‌تواند توسط مهاجمان برای انجام حملات فیشینگ و جعل برندها مورد سوءاستفاده قرار گیرد. علاوه بر این، دسترسی غیرمجاز به این کلیدها می‌تواند منجر به سرقت داده‌ها شود.

یکی دیگر از نکات قابل توجه، نرخ بالای استفاده مجدد از کلیدهای کشف‌شده بود. درواقع، ۶۳٪ از کلیدهای افشا شده در چندین صفحه تکرار شده بودند. به‌عنوان نمونه، یک کلید API مربوط به WalkScore بیش از ۵۷,۰۲۹ بار در ۱,۸۷۱ زیردامنه مختلف مشاهده شد.

همچنین، محققان یک صفحه وب را پیدا کردند که حاوی ۱۷ وب‌هوک زنده مربوط به نرم افزار Slack بود. این وب‌هوک‌ها باید کاملاً محرمانه بمانند، زیرا می‌توانند به برنامه‌ها اجازه دهند پیام‌هایی را مستقیماً در فضای Slack ارسال کنند. شرکت Slack نیز هشدار داده که نباید این وب‌هوک‌ها را به‌صورت عمومی در مخازن کد منتشر کرد.

اقدامات پس از افشا

پس از انجام این تحقیق، شرکت Truffle Security با ارائه‌دهندگان خدمات آسیب‌دیده تماس گرفته و به آن‌ها کمک کرد تا کلیدهای API کاربران خود را باطل کنند. این شرکت موفق شد چندین هزار کلید را به‌همراه این سازمان‌ها غیرفعال و جایگزین کند.

هشدار به شرکت‌های فعال در حوزه هوش مصنوعی

حتی اگر یک مدل هوش مصنوعی از آرشیوهای قدیمی‌تر نسبت به داده‌های بررسی‌شده استفاده کند، یافته‌های Truffle Security نشان می‌دهد که شیوه کدنویسی ناایمن می‌تواند بر عملکرد مدل‌های زبانی بزرگ تأثیر بگذارد.

بهبود تنظیمات امنیتی و ایجاد مکانیزم‌های حفاظتی قوی ‌تر در مدل‌های زبانی بزرگ می تواند به کاهش خطر تولید ناخواسته یا افشای اطلاعات حساس کمک کند. یکی از رویکردهای احتمالی برای افزایش ایمنی این مدل‌ها، استفاده از تکنیک‌هایی مانند هوش مصنوعی قانون‌محور (Constitutional AI) است.

منابع:

همچنین ممکن است دوست داشته باشید

پیام بگذارید