ناتوانی ربات‌ها از درک حالت چهره انسان‌ها

پژوهشگران دریافته‌اند که ربات‌های مجهز به هوش مصنوعی، برخلاف توانایی در پیش‌بینی نتایج رویدادها، در درک و تفسیر حالت‌های چهره انسان کاملاً ناتوان هستند. این یافته چالش مهمی را برای تعامل ربات‌ها با انسان در محیط‌های مشترک نشان می‌دهد.

به گزارش سیناپرس، پژوهشگران دانشگاه کرنل در حال بررسی این موضوع هستند که چگونه می‌توان به ربات‌ها هوش اجتماعی داد؛ یعنی به آن‌ها توانایی خواندن نشانه‌های صورت، پیش‌بینی نیازهای اطرافیان و رفتار مناسب در جامعه را بخشید.

آزمایش هوش مصنوعی

در این مطالعه، پژوهشگران توانایی مدل‌های زبانی‌بصری را آزمایش کردند؛ از این مدل هوش مصنوعی، که هم تصویر را می‌بیند و هم متن را می‌فهمد، خواسته شد پیش‌بینی کند که یک صحنه تنش‌آمیز در یک ویدئوی کوتاه، خوب تمام می‌شود یا بد. در یک نمونه از این صحنه‌ها، کودکی تلاش می‌کرد فنجان پر از قهوه را بدون ریختن به مقصد برساند.

پژوهشگران همچنین از مدل‌ها خواستند پیش‌بینی‌های خود را فقط بر اساس حالت‌های چهره افرادی که آن صحنه‌ها را تماشا می‌کردند، انجام دهند.

نتایج شگفت‌انگیز

بهترین مدل‌های هوش مصنوعی در پیش‌بینی پایان صحنه‌ها از انسان معمولی بهتر عمل کردند. اما وقتی قرار شد بر اساس حالت‌های چهره پیش‌بینی کنند، عملکردشان خیلی ضعیف بود.

ماریا ترسا پاریرا (Maria Teresa Parreira)، دانشجوی دکتری و پژوهشگر اصلی این طرح، می‌گوید: ما وقتی با دنیای اطرافمان تعامل می‌کنیم، نشانه‌های اجتماعی از خود بروز می‌دهیم. برای رباتی که در کنار انسان کار می‌کند، توانایی دریافت این اطلاعات بسیار مهم است.

مقایسه هوش مصنوعی با انسان

وِندی جو (Wendy Ju)، استاد دانشگاه کرنل و نویسنده ارشد این مطالعه، می‌گوید: انسان‌ها به واکنش‌های دیگران خیلی حساس هستند. همین حساسیت به ما اجازه می‌دهد چیزهایی را از دیگران بفهمیم که خودمان نمی‌دانیم. ما سعی داریم همین هوش را به ربات‌ها بدهیم.

پژوهشگران سه مدل پیشرفته و بسته (نوعی هوش مصنوعی که کد آن مخفی است و فقط شرکت سازنده به آن دسترسی دارد) مانند مدل شرکت اوپن‌اِی‌آی و مدل گوگل، و سه مدل رایگان و متن‌باز (نوعی هوش مصنوعی که کد آن عمومی است و هر کسی می‌تواند از آن استفاده کند) مانند دیپ‌سیک را آزمایش کردند.

مدل‌های بسته قدرتمندتر هستند، اما مدل‌های متن‌باز در ربات‌ها بیشتر استفاده می‌شوند؛ چون نیازی به اتصال به اینترنت ندارند و حریم خصوصی کاربران را بهتر حفظ می‌کنند.

از مدل‌ها خواسته شد ویدئوهایی را ارزیابی کنند؛ مثلاً صحنه‌ای که یک مرد با سرعت بالا با ماشین چمن‌زنی حرکت می‌کند، یا ربات انسان‌نمایی که سعی دارد از روی دو جعبه کنار هم بپرد.

بهترین مدل متن‌باز توانست پایان این صحنه‌ها را با دقت ۷۰ درصد پیش‌بینی کند. بهترین مدل بسته حدود ۶۳ درصد دقت داشت که تقریباً به اندازه یک انسان معمولی بود.

جایی که هوش مصنوعی شکست خورد

اما وقتی پژوهشگران از مدل‌ها خواستند بر اساس ویدئوهایی از واکنش‌های انسان‌ها به آن صحنه‌ها پیش‌بینی کنند، عملکردشان شدیداً افت کرد. دقت پیش‌بینی‌ها به ۴۴ تا ۵۴ درصد رسید. بعضی مدل‌ها حتی برای همه ویدئوها یک جواب تکراری می‌دادند.

این نتایج نشان می‌دهد که مدل‌های فعلی هوش مصنوعی در هوش اجتماعی پیش‌بینی‌کننده مشکل جدی دارند؛ یعنی نمی‌توانند حالت‌های چهره انسان را بفهمند و از آن برای پیش‌بینی نتیجه استفاده کنند. این مهارت برای تعامل موفق بین انسان و ربات بسیار مهم است.

چگونه ربات‌ها را اجتماعی‌تر کنیم؟

پاریرا و جو در حال بررسی این هستند که چرا مدل‌ها شکست می‌خورند و آیا می‌توان آن‌ها را بهبود داد. جو می‌گوید: بسیاری از سازندگان ربات‌ها تلاش می‌کنند تا محصولی کاملاً بی‌نقص بسازند، اما وقتی آن را در عمل آزمایش می‌کنند، غافلگیر می‌شوند. بهتر است ربات را زودتر در محیط واقعی به‌کار بگیریم، اشتباهاتش را ببینیم و بر اساس آن اصلاحش کنیم.

پاریرا امیدوار است این مطالعه، پژوهشگران را ترغیب کند تا راه‌های استفاده از هوش مصنوعی برای اجتماعی‌ترکردن ربات‌ها را بررسی کنند. او می‌گوید: حالت صورت و رفتارهایی که ما از خود نشان می‌دهیم، اطلاعات زیادی را در بردارد. استفاده از این اطلاعات برای هماهنگ‌کردن ربات با انسان اهمیت زیادی دارد.

به نقل از ایرنا، جو در پایان می‌گوید: ربات‌ها می‌توانند در حین کار یاد بگیرند؛ لازم نیست از اول همه‌چیز را بلد باشند.

این مطالعه در همایش بین‌المللی تعامل انسان و ربات (ACM/IEEE International Conference on Human-Robot Interaction) در ادینبورگ، اسکاتلند ارائه شده است.

میترا کردی۱۴۰۵-۰۳-۲۳