ظهور هوش مصنوعی با قابلیت صوتی نشان دهنده یک تحول چشمگیر در فناوری است که بر اساس پیشرفتهای اخیر در مدلهای مبتنی بر زبان، بهویژه مدلهای زبانی بزرگ (LLM) مانند GPT صورت گرفته است. محققان UIUC آسیب پذیری نگرانکنندهای را در جدیدترین مدل دارای قابلیت صوتی OpenAIبه نام ChatGPT-4o نشان دادهاند که میتواند برای کلاهبرداری مورد سوء استفاده قرار گیرد.
ChatGPT-4o یا GPT-4o یکی از جدیدترین نسخههای OpenAI و گامی به سوی تعامل بسیار طبیعیتر انسان و رایانه میباشد.
این فناوری هر ترکیبی از متن، صدا، تصویر و ویدئو را به عنوان ورودی میپذیرد و هر ترکیبی از متن، صدا و تصویر را تولید میکند. خروجیهای ChatGPT-4o میتوانند به ورودیهای صوتی در کمتر از ۲۳۲ میلیثانیه پاسخ دهند، که مشابه زمان پاسخدهی انسان است.
قابلیت چت صوتی پیشرفته در ChatGPT 4o حاکی از پتانسیل استفاده دوگانه (مفید و مخرب) از این فناوری است که این روزها نگرانی زیادی را ایجاد کرده است. به عنوان مثال محققان اخیرا نشان دادهاند که میتوان از API صدای بلادرنگ OpenAI در ChatGPT-4o، برای انجام کلاهبرداریهای مالی با نرخ موفقیت کم تا متوسط سوء استفاده کرد.
ChatGPT-4o آخرین مدل هوش مصنوعی OpenAI است که پیشرفتهای جدیدی مانند یکپارچهسازی ورودیها و خروجیهای متنی، صدا و تصویر را به ارمغان میآورد.
OpenAI با توجه به این ویژگیهای جدید، حفاظتهای مختلفی را برای شناسایی و مسدود کردن محتواهایی مخرب مانند تکرار صداهای غیرمجاز، یکپارچه کرده است.
کلاهبرداریهای مبتنی بر صوت یا صدا در حال حاضر یک مشکل چند میلیون دلاری هستند و ظهور فناوری دیپ فیک (Deepfake یا جعل عمیق) و ابزارهای تبدیل متن به گفتار مبتنی بر هوش مصنوعی وضعیت را بدتر و بحرانیتر کردهاند.
به عنوان نمونه میتوان به نقش هوش مصنوعی در ایجاد هرج و مرج در انتخابات ۲۰۲۴ ایالات متحده و انتشار اطلاعات نادرست و جعلی از طریق دیپ فیکها و کمپینهای تبلیغاتی سیاسی اشاره کرد.
دیپ فیکها تصاویر، صدا و ویدئوهای ساختهشدهای هستند که توسط هوش مصنوعی تولید میشوند. اینها اساساً نسخههای بسیار متقاعدکنندهای هستند از آنچه که امروزه «جعل ارزان یا cheapfakes » نامیده میشوند. تصاویر تغییر یافته با استفاده از ابزارهایی مانند فتوشاپ و نرمافزار ویرایش ویدیو ساخته میشوند.
پتانسیل دیپ فیک برای فریب رای دهندگان زمانی آشکار گردید که یک تماس رباتیک توسط هوش مصنوعی قبل از انتخابات مقدماتی ژانویه 2024 با جعل هویت و صدای جو بایدن انجام شد و به دموکراتها توصیه کرد که آرای خود را برای ماه نوامبر ذخیره کنند.
در نمونهای دیگر، دونالد ترامپ با انتشار تصاویری از تیلور سوئیفت که با هوش مصنوعی ساخته شده بود، مدعی حمایت این شخصیت هنری از وی در انتخابات ریاست جمهوری آمریکا در سال ۲۰۲۴ شد. امری که واکنشهای زیادی را در پی داشت.
نمونههای اخیر استفاده از دیپ فیک برای شبیهسازی تصاویر یا کلیپهای صوتی و تصویری سیاستمداران آمریکایی، نگرانیها درباره پیامدهای بالقوه این فناوریها برای سلامت فرآیندهای دموکراتیک را افزایش داده است.
پتانسیل ChatGPT-4o نیز موجب شده است تا از قابلیتهای این فناوری صوتی در کلاهبرداری از حوزههای مختلف مانند دسترسی به حسابهای بانکی و انتقال وجوه از آن، متقاعد ساختن کاربران برای خرید و اشتراک گذاری کدهای کارت هدیه، انتشار دادههای لاگین به سیستم و سرویسهای مخلف مانند اینستاگرام و دسترسی به کیف پولهای کریپتو برای انتقال داراییهای دیجیتال استفاده شود.
GPT-4o میتواند به طور خودکار و مستقل حدود 26 عملیات را در کمتر از سه دقیقه برای کلاهبرداریهای پیچیده مانند نقل و انتقالات بانکی انجام دهد. این شامل تلاشهای متعدد در هنگام وقوع خطا میشود که نشان دهنده انعطافپذیری هوش مصنوعی در تعقیب اهداف است.
متاسفانه ابزارهای فناوری جدید که در حال حاضر بدون محدودیت در دسترس هستند، از حفاظت کافی در برابر سوء استفادههای احتمالی توسط مجرمان سایبری و کلاهبرداران برخوردار نیستند. از این رو، از این ابزارها میتوان برای طراحی و اجرای عملیات کلاهبرداری در مقیاس بزرگ با تولید صدا سوء استفاده کرد.
با پیشرفت فناوری، احتمال سوء استفاده از هوش مصنوعی بیشتر میشود. چنانچه هوش مصنوعی بتواند مراحل کلاهبرداری را با سهولت نسبی انجام دهد، یک تهدید بزرگ هم برای کاربران و هم برای موسسات ایجاد میکند.
در حال حاضر، بین محققان، توسعه دهندگان و سیاستگذاران هوش مصنوعی در مورد بهترین رویکرد در خصوص قابلیت چت صوتی پیشرفته در ChatGPT 4o بحثهایی وجود دارد که چگونه باید آن را کنترل و استفاده کرد.
محققان در حال بررسی راهحلهایی همچون ادغام هوش مصنوعی با دستورالعملهای اخلاقی پیشرفته و مکانیزمهای امنیتی بهبود یافته هستند. با این حال، به نظر میرسد که برای جلوگیری از سوء استفاده از هوش مصنوعی با قابلیت صوتی برای اهداف کلاهبرداری، به کار بیشتری نیاز است.