وقتی هوش مصنوعی آزمون «آخرین امتحان بشریت» را پشت سر گذاشت، مراقب باشید

اگر به دنبال دلیل جدیدی برای عصبی شدن در مورد هوش مصنوعی هستید، این خبر را بخوانید: برخی از باهوش‌ترین انسان‌های جهان در تلاش برای ایجاد آزمایش‌هایی هستند که سیستم‌های هوش مصنوعی نتوانند از پس آن برآیند.

مهدی نوروز: سازندگان آزمایش جدیدی به نام «آخرین امتحان بشریت» استدلال می‌کنند که ممکن است به زودی توانایی ایجاد آزمایش‌های سخت برای مدل‌های هوش مصنوعی را از دست بدهیم. در ادامه خلاصۀ گزارشی بر گرفته از روزنامه نیویورک تایمز را از نظر می‌گذرانید.

به گزارش خبرگزاری سینا، برای سال‌ها، سیستم‌های هوش مصنوعی با ارائه انواع تست‌های معیار استاندارد شده به مدل‌های جدید اندازه‌گیری می‌شدند. بسیاری از این تست ها شامل مسائل چالش برانگیز با کالیبر SAT در زمینه هایی مانند ریاضی، علوم و منطق بود. مقایسه نمرات مدل ها در طول زمان به عنوان یک معیار تقریبی از پیشرفت هوش مصنوعی عمل کرد.

اما سیستم‌های هوش مصنوعی در نهایت در آن تست‌ها خیلی خوب ظاهر شدند، بنابراین تست‌های جدید و سخت‌تری ایجاد شد – اغلب با انواع سوالاتی که دانشجویان فارغ‌التحصیل ممکن است در امتحانات خود با آن‌ها مواجه شوند.

اکنون آن تست‌ها نیز دیگر حریف هوش مصنوعی نیستند زیرا مدل‌های جدید شرکت‌هایی مانند OpenAI، Google و Anthropic نمرات بالایی در بسیاری از این چالش‌های PH.D کسب کرده‌اند، که سودمندی آن آزمون‌ها را محدود کرده و منجر به یک سوال دلخراش می‌شود: آیا سیستم‌های هوش مصنوعی برای اندازه‌گیری آنقدر هوشمند هستند؟

این هفته(گزارش در 23 ژانویه منتشر شده است) محققان مرکز ایمنی و مقیاس هوش‌مصنوعی درصدد پاسخ احتمالی برای ارزیابی جدیدی به نام آخرین امتحان بشریت هستند که به ادعای آنها سخت‌ترین آزمایشی است تاکنون برای سیستم‌های هوش مصنوعی انجام شده.

آقای هندریکس مشاور شرکت هوش مصنوعی Scale AI می‌گوید برای گردآوری این آزمون شامل تقریباً 3000 سؤال چند گزینه‌ای و پاسخ کوتاه است که برای آزمایش توانایی‌های سیستم‌های هوش مصنوعی در زمینه‌هایی از فلسفه تحلیلی تا مهندسی موشک طراحی شده‌اند.

سوالات از سوی متخصصان این حوزه‌ها، از جمله اساتید دانشگاه و ریاضیدانان برنده جایزه، ارائه شده و از آنها خواسته شده تا سوالات بسیار دشواری را مطرح کنند که البته پاسخ آنها را نیز داشته باشند.

سؤالات آخرین امتحان Humanity از یک فرآیند فیلترینگ دو مرحله ای گذشت. ابتدا، سوالات ارسالی برای حل به مدل های پیشرو هوش مصنوعی داده شد.

اگر مدل‌ها نمی‌توانستند به آن‌ها پاسخ دهند (یا اگر در مورد سؤالات چندگزینه‌ای، مدل‌ها بدتر از حدس‌زنی تصادفی بودند)، سؤال‌ها به مجموعه‌ای از بازبین‌های انسانی داده می‌شد که آنها را اصلاح کردند و پاسخ‌های صحیح را تأیید کردند. کارشناسانی که سوالات با رتبه برتر را می نوشتند بین 500 تا 5000 دلار به ازای هر سوال و همچنین اعتبار برای مشارکت در آزمون دریافت می‌کردند.

آخرین امتحان Humanity با هدف تعیین میزان عملکرد سیستم‌های هوش مصنوعی در پاسخگویی به سؤالات پیچیده در طیف گسترده‌ای از موضوعات آکادمیک انجام می‌شود و به محققان چیزی را ارائه می‌دهد که ممکن است به عنوان یک نمره هوش عمومی در نظر گرفته شود.

آقای هندریکس گفت: «ما در تلاش هستیم تا حدی را تخمین بزنیم که هوش مصنوعی می‌تواند بسیاری از کار فکری واقعاً دشوار را خودکار کند.

به گفتۀ او که انتظار می‌رود این امتیازات به سرعت افزایش یافته و تا پایان سال به طور بالقوه از 50 درصد فراتر رود. هندریکس در ادامه گفت که در آن مرحله، سیستم‌های هوش مصنوعی ممکن است «اوراکل‌های کلاس جهانی» در نظر گرفته شوند که قادرند به سؤالات مربوط به هر موضوعی با دقت بیشتری نسبت به متخصصان انسانی پاسخ دهند. و ممکن است مجبور شویم به دنبال راه‌های دیگری برای اندازه‌گیری تأثیرات هوش مصنوعی باشیم، راه‌هایی همچون بررسی داده‌های اقتصادی یا قضاوت در مورد اینکه آیا این هوش مصنوعی می‌تواند اکتشافات جدیدی در زمینه‌هایی مانند ریاضیات و علوم داشته باشد یا خیر؟