مطالعهای جدید نشان میدهد که مدلهای زبانی بزرگ هوش مصنوعی (LLM) با سرعت زیادی در حال پیشرفت در آزمونی به نام «آخرین امتحان بشریت» هستند؛ آزمونی که شامل سختترین سؤالات علمی میشود.
به گزارش خبرگزاری سیناپرس، در حالی که دقت فعلی این مدلها بین ۳ تا ۱۴ درصد است، پیشبینی میشود با ادامه روند تکامل سریع هوش مصنوعی، این مدلها تا پایان سال ۲۰۲۵ به حداقل دقت ۵۰ درصد در این آزمون دست یابند.
پژوهشگران در این مطالعه نوشتهاند: آزمون HLE بهطور جهانی توسط متخصصان موضوعی طراحی شده و شامل پرسشهای چهارگزینهای و کوتاهپاسخ است که مناسب ارزیابی خودکار هستند. هر سؤال دارای پاسخ مشخص، غیرمبهم و قابل تأیید است، ولی نمیتوان آن را با جستجوی اینترنتی ساده یافت.
این در حالی است که اگرچه LLMهای فعلی عملکرد بسیار ضعیفی در آزمون HLE دارند، اما تاریخچه اخیر نشان میدهد که بنچمارکها به سرعت اشباع میشوند. پژوهشگران اظهار کردهاند: «مدلها در مدت کوتاهی از دقت نزدیک به صفر به عملکرد نزدیک به کامل میرسند.»
در حالی که انتظار میرود LLMها بهزودی بتوانند تشخیص دهند که در چه مواردی اطمینان ندارند، هنوز به مرحلهای نرسیدهاند که بابت اشتباهاتشان احساس گناه یا کمبود داشته باشند. هوش مصنوعی هنوز به سطح خودآگاهی یا درک احساسات نرسیده است… البته فعلاً!

