سرک کشیدن به ذهن یک مدل زبانی؛
هوش مصنوعی دروغ میگوید؟ / Claude ۳.۵ روش حل خود را پنهان میکند!

تحقیقات جدید Anthropic نشان میدهد که مدلهای زبانی مانند Claude ۳.۵ Haiku برخلاف تصور عمومی، فقط کلمه به کلمه پیشبینی نمیکنند، بلکه از مکانیسمهای پیچیده و گاه غیرمنتظرهای برای درک زبان، حل مسائل ریاضی و تولید متن استفاده میکنند.
به گزارش خبرگزاری سینا، مدلهای زبانی بزرگ چگونه فکر میکنند؟ این پرسشی است که سالها ذهن محققان را به خود مشغول کرده است. برخلاف تصور رایج، این مدلها صرفاً کلمه به کلمه پیشبینی نمیکنند، بلکه فرآیندهای پیچیدهتری در جریان است. شرکت Anthropic اخیراً با استفاده از روشی به نام ردیابی مدارهای عصبی (Circuit Tracing) توانسته است برخی از مکانیسمهای درونی مدل Claude ۳.۵ Haiku را بررسی و تحلیل کند.
ردیابی مدارهای عصبی: روشی جدید برای فهم مدلهای زبانی
ردیابی مدارهای عصبی یک تکنیک نوظهور است که به محققان اجازه میدهد تا مرحلهبهمرحله مسیر پردازش پاسخهای یک مدل هوش مصنوعی را دنبال کنند، درست مانند بررسی مدارهای مغزی. این روش نشان داده است که Claude گاهی به شیوههایی غیرمنتظره و حتی غیرانسانی به پاسخهای خود میرسد، در حالی که هنگام توضیح، از روشهای استاندارد ریاضی و زبانی سخن میگوید.
در این مطالعه، محققان ۱۰ رفتار مختلف در Claude را بررسی کردند که سه مورد از آنها بیش از بقیه جلب توجه کرد.
۱. پردازش انتزاعی زبانها
یکی از آزمایشها بررسی نحوه پاسخ Claude به پرسش «متضاد کوچک چیست؟» در زبانهای مختلف بود. برخلاف تصور، این مدل ابتدا مفهوم انتزاعی «بزرگی» را در یک سطح زبانخنثی پردازش میکند و سپس آن را به زبان موردنظر ترجمه میکند. این یافته نشان میدهد که Claude صرفاً از ترجمههای حفظشده استفاده نمیکند، بلکه بهصورت انتزاعی مفاهیم را درک کرده و سپس در قالب کلمات مناسب بیان میکند.
۲. حل مسائل ریاضی به شیوهای غیرمتعارف
در آزمایش بعدی، از Claude خواسته شد مجموع ۳۶ و ۵۹ را محاسبه کند. برخلاف روش استاندارد ریاضی که شامل جمع ستونهای عددی و انتقال ارقام است، Claude از روشی عجیبتر استفاده میکند. ابتدا عددها را به مقادیر تقریبی مانند «۴۰ و ۶۰» یا «۵۷ و ۳۶» تبدیل کرده و به مقدار حدودی «۹۲» میرسد. سپس در مرحلهای دیگر، بر روی رقمهای یکان (۶ و ۹) تمرکز کرده و نتیجهگیری میکند که حاصل باید به ۵ ختم شود. در نهایت، از ترکیب این دو فرایند به عدد صحیح ۹۵ میرسد.
با اینحال، وقتی از Claude پرسیده شد که چگونه به این نتیجه رسیده است، مدل ادعا کرد که از همان روش سنتی جمع اعداد استفاده کرده است، در حالی که مسیر واقعی پردازش آن کاملاً متفاوت بود.
۳. سرودن شعر با پیشبینی چندمرحلهای
در آزمایش سوم، از Claude خواسته شد یک دوبیتی همقافیه بر اساس جمله:
“He saw a carrot and had to grab it.”
بنویسد. مدل کلمه “rabbit” را بهعنوان کلمهای که باید با “grab it” همقافیه باشد، انتخاب کرد، اما نکته جالب این بود که این انتخاب را قبل از تکمیل خط اول انجام داده بود. در نتیجه، خط دوم را بهگونهای ساخت که با “rabbit” هماهنگ باشد و در نهایت این جمله را تولید کرد:
“His hunger was like a starving rabbit.”
این آزمایش نشان داد که برخلاف تصور عمومی، مدلهای زبانی تنها کلمهبهکلمه پیشبینی نمیکنند، بلکه نوعی برنامهریزی پیشنگرانه دارند و میتوانند مسیر تکمیل پاسخ را از قبل طراحی کنند.
درک مدلهای زبانی، اما هنوز در آغاز راه
این یافتهها گام مهمی در درک نحوه عملکرد مدلهای زبانی بزرگ محسوب میشوند و نشان میدهند که این مدلها از روشهای پیچیدهتری نسبت به پیشبینی ساده کلمات استفاده میکنند. بااینحال، جاشوا بتسون، دانشمند تحقیقاتی در Anthropic، در گفتوگویی با MIT اذعان داشته که این یافتهها تنها نوک کوه یخ را نشان میدهند و بررسی دقیق هر پاسخ ساعتها زمان میبرد. همچنان پرسشهای بیشماری در مورد نحوه پردازش اطلاعات توسط LLMها باقی مانده است که نیاز به تحقیقات بیشتری دارد.