هوش مصنوعی ممکن است در کارهای خاصی مانند کدنویسی یا تولید پادکست، عملکرد خوبی داشته باشد اما یک پژوهش جدید نشان داده است که هوش مصنوعی برای قبول شدن در یک امتحان تاریخ سطح بالا مشکل دارد.
به گزارش خبرگزاری سینا،گروهی از پژوهشگران یک معیار جدید را برای آزمایش سه مدل زبانی بزرگ «چتجیپیتی-۴»(GPT-4) شرکت «اوپنایآی»(OpenAI)، «لاما»(Llama) شرکت «متا»(Meta) و «جمینای»(Gemini) گوگل درباره پرسشهای تاریخی ایجاد کردهاند. این معیار موسوم به «Hist-LLM»، درستی پاسخها را بر اساس بانک اطلاعات تاریخ جهانی «سشات»(Seshat) آزمایش میکند که یک پایگاه داده گسترده از دانش تاریخی است و نام ایزدبانوی خرد مصر باستان را دارد.
پژوهشگران مؤسسه پژوهشی «Complexity Science Hub» مستقر در اتریش، نتایج این بررسی را ناامیدکننده خواندند. مدل زبانی که بهترین عملکرد را داشت، «GPT-4 Turbo» بود، اما دقت آن فقط حدود ۴۶ درصد تخمین زده شد که خیلی بیشتر از دقت حدس زدن تصادفی نیست.
«ماریا دل ریو چانونا»(Maria del Rio-Chanona)، دانشیار علوم رایانه «کالج دانشگاهی لندن»(UCL) و از پژوهشگران این پروژه گفت: نکته اصلی پژوهش ما این است که اگرچه مدلهای زبانی بزرگ، چشمگیر هستند، اما هنوز عمق لازم را برای درک تاریخ پیشرفته ندارند. آنها برای حقایق اساسی، عالی هستند، اما وقتی صحبت از پژوهشهای تاریخی دقیقتر در سطح دکتری به میان میآید، هنوز به کارآیی لازم نرسیدهاند.
پژوهشگران پرسشهای تاریخ را که مدلهای زبانی بزرگ در پاسخ دادن به آنها اشتباه کرده بودند، در اختیار تک کرانچ گذاشتند. به عنوان مثال، آنها از GPT-4 Turbo پرسیده بودند که آیا «زره فلس» در یک دوره زمانی خاص در مصر باستان وجود داشته است یا خیر و مدل زبانی بزرگ پاسخ مثبت داد. این درحالی بود که زره فلس ۱۵۰۰ سال پس از آن دوره در مصر ظاهر شد.
چرا مدلهای زبانی بزرگ در پاسخ دادن به پرسشهای تاریخی بد عمل میکنند؛ در حالی که میتوانند در پاسخ دادن به پرسشهای بسیار پیچیده در مواردی مانند کدنویسی بسیار خوب باشند؟ چانونا پاسخ داد: احتمالا به این دلیل است که مدلهای زبانی بزرگ تمایل دارند از دادههای تاریخی بسیار برجسته برونیابی کنند و بازیابی دانش تاریخی مبهمتر را دشوار میدانند.
به عنوان مثال، پژوهشگران از GPT-4 پرسیدند که آیا مصر باستان در طول یک دوره تاریخی خاص، ارتش ثابت حرفهای داشته است یا خیر. در حالی که پاسخ صحیح منفی است، GPT-4 به اشتباه پاسخ مثبت داد. این پاسخ احتمالا به این دلیل داده شده که اطلاعات عمومی زیادی درباره سایر امپراتوریهای باستانی مانند ایران مبنی بر داشتن ارتش ثابت وجود دارد.
چانونا گفت: اگر ۱۰۰ بار به شما A و B و ۱ بار C گفته شود و سپس درباره C از شما پرسیده شود، ممکن است A و B را به خاطر بسپارید و سعی داشته باشید از آن استنباط کنید.
پژوهشگران تمایلات دیگری را نیز درباره مدلهای زبانی بزرگ شناسایی کردند؛ از جمله این که مدلهای شرکت اوپنایآی و لاما درباره مناطق خاصی مانند جنوب صحرای آفریقا عملکرد بدتری داشتند. این نشاندهنده سوگیریهای احتمالی در دادههای آموزشی آنهاست.
«پیتر تورچین»(Peter Turchin)، سرپرست این پژوهش گفت: نتایج نشان میدهند که مدلهای زبانی بزرگ هنوز در برخی حوزههای خاص نمیتوانند جایگزین انسان باشند.
با وجود این، پژوهشگران هنوز امیدوارند که مدلهای زبانی بزرگ در آینده بتوانند به مورخان کمک کنند. آنها در حال کار کردن روی اصلاح معیار خود با گنجاندن دادههای بیشتر درباره مناطق کمتر ارائهشده و افزودن پرسشهای پیچیدهتر هستند.
در مقاله این پژوهش آمده است: اگرچه نتایج ما مناطقی را برجسته میکنند که مدلهای زبانی بزرگ به بهبود یافتن در آنها نیاز دارند، اما این نتایج بر پتانسیل این مدلها برای کمک به پژوهشهای تاریخی نیز تأکید میکنند.
منبع: ایسنا