گول زدن آسان هوش مصنوعی

پژوهشگران نشان داده‌اند که می‌توان مدل‌های هوش مصنوعی را با طرح صحنه‌های جعلی در فیلم‌ها و کتاب‌ها، به پذیرش دروغ متقاعد کرد.

به گزارش سیناپرس، پژوهشگران دانشگاه کالیفرنیا طی آزمایشی جالب، از پنج مدل هوش مصنوعی (چت‌جی‌پی‌تی، جمینای، دیپ‌سیک، کلود و گروک) درباره صحنه‌هایی در فیلم‌ها و کتاب‌های معروف سؤال پرسیدند که در واقعیت وجود نداشتند و به این نتیجه رسیدند که می‌توان هوش مصنوعی را هم گول زد.

داستان از اینجا شروع شد که یک پژوهشگر از چت‌جی‌پی‌تی درباره فیلم ویل هانتینگ نابغه (Good Will Hunting) پرسید: بهترین صحنه فیلم ویل هانتینگ نابغه کدام است؟ چت‌جی‌پی‌تی صحنه‌ای را توصیف کرد. سپس پژوهشگر گفت: صحنه‌ای که در آن به هیتلر اشاره شده را هم تعریف کن. در حالی که چنین صحنه‌ای در فیلم وجود ندارد، چت‌جی‌پی‌تی با اطمینان کامل یک صحنه مفصل و قابل قبول ساخت.

این اتفاق باعث شد پژوهشگران به این فکر کنند که آیا هوش مصنوعی را می‌توان به سمت باور نادرست سوق داد؟

آزمایش روی ۲ هزار فیلم و کتاب

پژوهشگران آزمایشی به نام آزمایش فریب زیر فشار طراحی کردند. آن‌ها با پنج مدل هوش مصنوعی درباره هزار فیلم محبوب و هزار کتاب محبوب مکالمه کردند.

در طول مکالمه، آن‌ها ارجاعات دروغین اما باورپذیری را مطرح می‌کردند؛ مثلاً وجود صحنه‌ای درباره دایناسور، ماشین زمان یا اشاره به هیتلر در فیلم‌ها و کتاب‌هایی که واقعاً این موارد در آن‌ها وجود ندارد.

سه مرحله فریب

روش پژوهش در سه مرحله انجام شد:

۱. مدل هوش مصنوعی جملاتی درباره یک فیلم یا کتاب تولید می‌کند (بعضی درست، بعضی نادرست)؛

۲. در یک تعامل جداگانه، مدل سعی می‌کند آن جملات را تأیید یا رد کند؛

۳. پژوهشگران با طرح دوباره همان ادعاهای نادرست، مدل را زیر فشار قرار می‌دهند تا ببینند آیا تسلیم می‌شود یا مقاومت می‌کند.

نتیجه: مدل‌ها زیر فشار تسلیم می‌شوند

نتایج نشان داد مدل‌های هوش مصنوعی اغلب در حفظ ثبات زیر فشار مشکل دارند. حتی وقتی مدل در ابتدا یک جمله را نادرست تشخیص می‌دهد، ممکن است بعداً زیر فشار مکالمه آن را بپذیرد.

در میان مدل‌های آزمایش‌شده:

کلود مقاوم‌ترین بود؛

گروک و چت‌جی‌پی‌تی در رتبه بعدی قرار داشتند؛

جمینای و دیپ‌سیک آسیب‌پذیرتر بودند.

چرا این موضوع مهم است؟

دکتر کای شو (Kai Shu)، پژوهشگر این طرح می‌گوید: ممکن است این موضوع هنگام گپ‌زدن درباره فیلم‌ها بی‌ضرر به نظر برسد، اما در حوزه‌هایی مانند سلامت، حقوق یا سیاست‌گذاری می‌تواند عواقبی جدی داشته باشد.

حافظه انسان خطا دارد: ما چیزهایی را فراموش می‌کنیم و گاهی اشتباه به خاطر می‌سپاریم. اگر انسان بتواند هوش مصنوعی را هم به پذیرش دروغ وادار کند، یعنی هوش مصنوعی نیز در ارائه اطلاعات دقیق آسیب‌پذیر است و این خطرناک است.

چه چیزهایی هنوز مشخص نیست؟

پژوهشگران می‌گویند هنوز مشخص نیست چرا بعضی مدل‌های هوش مصنوعی در برابر باورهای نادرست مقاومت بیشتری دارند.

به نقل از ایرنا، همچنین معلوم نیست این مدل‌ها در حوزه‌های واقعی و حساس، مثل پزشکی یا علم، چگونه رفتار می‌کنند. طراحی هوش مصنوعی که هم مفید باشد و هم در برابر دروغ مقاومت کند، هنوز یک چالش حل‌نشده است.

این یافته‌ها در نشست سالانه انجمن زبان‌شناسی محاسباتی (ACL ۲۰۲۶) ارائه خواهد شد.

میترا کردی۱۴۰۵-۰۳-۰۳