اگر به دنبال دلیل جدیدی برای عصبی شدن در مورد هوش مصنوعی هستید، این خبر را بخوانید: برخی از باهوشترین انسانهای جهان در تلاش برای ایجاد آزمایشهایی هستند که سیستمهای هوش مصنوعی نتوانند از پس آن برآیند.
مهدی نوروز: سازندگان آزمایش جدیدی به نام «آخرین امتحان بشریت» استدلال میکنند که ممکن است به زودی توانایی ایجاد آزمایشهای سخت برای مدلهای هوش مصنوعی را از دست بدهیم. در ادامه خلاصۀ گزارشی بر گرفته از روزنامه نیویورک تایمز را از نظر میگذرانید.
به گزارش خبرگزاری سینا، برای سالها، سیستمهای هوش مصنوعی با ارائه انواع تستهای معیار استاندارد شده به مدلهای جدید اندازهگیری میشدند. بسیاری از این تست ها شامل مسائل چالش برانگیز با کالیبر SAT در زمینه هایی مانند ریاضی، علوم و منطق بود. مقایسه نمرات مدل ها در طول زمان به عنوان یک معیار تقریبی از پیشرفت هوش مصنوعی عمل کرد.
اما سیستمهای هوش مصنوعی در نهایت در آن تستها خیلی خوب ظاهر شدند، بنابراین تستهای جدید و سختتری ایجاد شد – اغلب با انواع سوالاتی که دانشجویان فارغالتحصیل ممکن است در امتحانات خود با آنها مواجه شوند.
اکنون آن تستها نیز دیگر حریف هوش مصنوعی نیستند زیرا مدلهای جدید شرکتهایی مانند OpenAI، Google و Anthropic نمرات بالایی در بسیاری از این چالشهای PH.D کسب کردهاند، که سودمندی آن آزمونها را محدود کرده و منجر به یک سوال دلخراش میشود: آیا سیستمهای هوش مصنوعی برای اندازهگیری آنقدر هوشمند هستند؟
این هفته(گزارش در 23 ژانویه منتشر شده است) محققان مرکز ایمنی و مقیاس هوشمصنوعی درصدد پاسخ احتمالی برای ارزیابی جدیدی به نام آخرین امتحان بشریت هستند که به ادعای آنها سختترین آزمایشی است تاکنون برای سیستمهای هوش مصنوعی انجام شده.
آقای هندریکس مشاور شرکت هوش مصنوعی Scale AI میگوید برای گردآوری این آزمون شامل تقریباً 3000 سؤال چند گزینهای و پاسخ کوتاه است که برای آزمایش تواناییهای سیستمهای هوش مصنوعی در زمینههایی از فلسفه تحلیلی تا مهندسی موشک طراحی شدهاند.
سوالات از سوی متخصصان این حوزهها، از جمله اساتید دانشگاه و ریاضیدانان برنده جایزه، ارائه شده و از آنها خواسته شده تا سوالات بسیار دشواری را مطرح کنند که البته پاسخ آنها را نیز داشته باشند.
سؤالات آخرین امتحان Humanity از یک فرآیند فیلترینگ دو مرحله ای گذشت. ابتدا، سوالات ارسالی برای حل به مدل های پیشرو هوش مصنوعی داده شد.
اگر مدلها نمیتوانستند به آنها پاسخ دهند (یا اگر در مورد سؤالات چندگزینهای، مدلها بدتر از حدسزنی تصادفی بودند)، سؤالها به مجموعهای از بازبینهای انسانی داده میشد که آنها را اصلاح کردند و پاسخهای صحیح را تأیید کردند. کارشناسانی که سوالات با رتبه برتر را می نوشتند بین 500 تا 5000 دلار به ازای هر سوال و همچنین اعتبار برای مشارکت در آزمون دریافت میکردند.
آخرین امتحان Humanity با هدف تعیین میزان عملکرد سیستمهای هوش مصنوعی در پاسخگویی به سؤالات پیچیده در طیف گستردهای از موضوعات آکادمیک انجام میشود و به محققان چیزی را ارائه میدهد که ممکن است به عنوان یک نمره هوش عمومی در نظر گرفته شود.
آقای هندریکس گفت: «ما در تلاش هستیم تا حدی را تخمین بزنیم که هوش مصنوعی میتواند بسیاری از کار فکری واقعاً دشوار را خودکار کند.
به گفتۀ او که انتظار میرود این امتیازات به سرعت افزایش یافته و تا پایان سال به طور بالقوه از 50 درصد فراتر رود. هندریکس در ادامه گفت که در آن مرحله، سیستمهای هوش مصنوعی ممکن است «اوراکلهای کلاس جهانی» در نظر گرفته شوند که قادرند به سؤالات مربوط به هر موضوعی با دقت بیشتری نسبت به متخصصان انسانی پاسخ دهند. و ممکن است مجبور شویم به دنبال راههای دیگری برای اندازهگیری تأثیرات هوش مصنوعی باشیم، راههایی همچون بررسی دادههای اقتصادی یا قضاوت در مورد اینکه آیا این هوش مصنوعی میتواند اکتشافات جدیدی در زمینههایی مانند ریاضیات و علوم داشته باشد یا خیر؟