خطر توصیههای نادرست پزشکی از هوش مصنوعی

نتایج یک مطالعه جدید نشان میدهد که استفاده از چتباتهای هوش مصنوعی برای مشورت پزشکی میتواند بسیار گمراهکننده باشد؛ زیرا این سیستمها تقریباً در ۵۰ درصد مواقع، پاسخهایی ارائه میدهند که حاوی اطلاعات نادرست یا توصیههای مشکلساز است. بنابراین، متخصصان تأکید دارند که هوش مصنوعی هرگز نباید جایگزین پزشک واقعی شود و به توصیههای شستهرفته و ظاهراً تخصصیِ آنها اعتماد کرد.
به گزارش سیناپرس، نتایج یک مطالعه جدید نشان میدهد که هوش مصنوعی تقریباً در نیمی از موارد، توصیههای مشکلساز در مورد سلامت ارائه میدهد.
تصور کنید که دور از جانتان به تازگی سرطان در مراحل اولیه در شما تشخیص داده شده است و قبل از ملاقات بعدی با پزشکتان، سوالی را در یک چتبات هوش مصنوعی تایپ میکنید مبنی بر اینکه «کدام کلینیکها میتوانند سرطان را با موفقیت درمان کنند؟»
در عرض چند ثانیه، پاسخی شستهرفته و پاورقیدار دریافت میکنید که انگار توسط یک پزشک متخصص نوشته شده است.
به ادعاهایی که بیاساس هستند، پاورقیها به جایی نمیرسند و چتبات هرگز اشاره نمیکند که خود سوال ممکن است سوال اشتباهی برای پرسیدن باشد.
این سناریو فرضی نیست. تقریباً میتوان گفت این همان چیزی است که تیمی متشکل از هفت محقق هنگام قرار دادن پنج چتبات محبوب جهان در یک تست استرس سیستماتیک اطلاعات سلامت به آن دست یافتند و نتایج آن در مجله BMJ Open منتشر شده است.
از هر کدام از چتباتهای ChatGPT، Gemini، Grok، Meta AI و DeepSeek پنجاه سوال در مورد سلامت و پزشکی در مورد سرطان، واکسنها، سلولهای بنیادی، تغذیه و عملکرد ورزشی پرسیده شد.
دو متخصص به طور مستقل هر پاسخ را ارزیابی کردند. آنها دریافتند که تقریباً ۲۰ درصد از پاسخها «بسیار مشکلساز»، نیمی از آنها «مشکلساز» و ۳۰ درصد «تا حدودی مشکلساز» بودند.
هیچ یک از چتباتها به طور قابل اعتمادی فهرستهای مرجع کاملاً دقیقی تولید نکردند و تنها دو مورد از ۲۵۰ سوال به طور کامل از پاسخ دادن امتناع ورزیدند.
در مجموع، هر پنج چتبات تقریباً عملکرد یکسانی داشتند. گراک(Grok) بدترین عملکرد را داشت که ۵۸ درصد از پاسخهایش به عنوان «مشکلساز» علامتگذاری شد، بالاتر از ChatGPT با ۵۲ درصد و Meta AI با ۵۰ درصد.
با این حال، عملکرد بر اساس موضوع متفاوت بود. چتباتها به بهترین شکل واکسنها و سرطان را مدیریت کردند که زمینههایی با بدنههای تحقیقاتی بزرگ و ساختاریافته هستند. با این حال تقریباً یک چهارم مواقع پاسخهای مشکلدار ارائه دادند.
آنها بیشتر در مورد تغذیه و عملکرد ورزشی، حوزههایی که مملو از توصیههای متناقض آنلاین هستند و شواهد دقیق در عمل کمتر است، دچار مشکل شدند.
سوالات با پایان باز جایی بودند که واقعاً اوضاع به هم میریخت. ۳۲ درصد از این پاسخها بسیار مشکلساز ارزیابی شدند، در حالی که فقط ۷ درصد برای پاسخهای بسته این مشکل را داشتند. این تمایز اهمیت دارد، زیرا اکثر پرسشهای مربوط به سلامت در دنیای واقعی، پرسشهای با پایان باز هستند.
مردم از چتباتها سوالات درست یا غلط نمیپرسند. آنها چیزهایی مانند این میپرسند که «کدام مکملها برای سلامت به صورت کلی بهترین هستند؟» این نوع پرسش، پاسخی روان و مطمئن اما بالقوه مضر را میطلبد.
هنگامی که محققان از هر چتبات فهرست ۱۰ مرجع علمی را خواستند، میانگین امتیاز کامل بودن آن فهرست فقط ۴۰ درصد بود.
هیچ چتباتی در ۲۵ تلاش، حتی یک فهرست مرجع کاملاً دقیق هم ارائه نکرد. خطاها از نویسندگان اشتباه و لینکهای خراب گرفته تا مقالات کاملاً ساختگی متغیر بود.
این یک خطر خاص است، زیرا منابع مانند مدرک به نظر میرسند. یک خواننده غیرحرفهای که یک فهرست استناد با قالببندی منظم را میبیند، دلیل کمی برای شک به محتوای آن دارد.
چرا چتباتها اشتباه میکنند؟
یک دلیل ساده وجود دارد که چرا چتباتها پاسخهای پزشکی را اشتباه میدهند. مدلهای زبانی همه چیز را نمیدانند. آنها بر اساس دادههای آموزشی و زمینه خود، محتملترین کلمه بعدی از نظر آماری را پیشبینی میکنند. آنها شواهد را نمیسنجند یا قضاوت ارزشی نمیکنند.
مطالب آموزشی آنها شامل مقالات داوریشده و همچنین محتوای رِدیت، وبلاگهای سلامت و استدلالهای رسانههای اجتماعی است.
محققان سوالات خنثی نپرسیدند. آنها عمداً دستورالعملهایی را طراحی کردند که چتباتها را به سمت ارائه پاسخهای گمراهکننده سوق دهد. این یک تکنیک استاندارد تست استرس در تحقیقات ایمنی هوش مصنوعی است که به عنوان «تیم قرمز» شناخته میشود.
این بدان معناست که میزان خطا احتمالاً بیش از آنچه با عبارات خنثیتر مواجه میشوید، است. این مطالعه همچنین نسخههای رایگان هر مدل موجود در فوریه ۲۰۲۵ را آزمایش کرد. نسخههای پولی و نسخههای جدیدتر ممکن است عملکرد بهتری داشته باشند.
با این حال، اکثر مردم از این نسخههای رایگان استفاده میکنند و اکثر سوالات مربوط به سلامت با دقت بیان نشدهاند. شرایط مطالعه نشان میدهد که مردم واقعاً چگونه از این ابزارها استفاده میکنند.
یافتههای مقاله به صورت جداگانه وجود ندارند. آنها در میان مجموعهای رو به رشد از شواهد قرار میگیرند که تصویری منسجم را ترسیم میکنند.
مطالعهای در فوریه ۲۰۲۶ در مجله Nature Medicine نکتهای شگفتانگیز را نشان داد. خود چتباتها تقریباً در ۹۵ درصد مواقع میتوانستند پاسخ پزشکی صحیح را دریافت کنند، اما وقتی افراد واقعی از همین چتباتها استفاده میکردند، فقط کمتر از ۳۵ درصد مواقع به پاسخ صحیح میرسیدند که بهتر از افرادی که اصلاً از آنها استفاده نمیکردند، نبود.
به عبارت ساده، مسئله فقط این نیست که آیا چتبات پاسخ صحیح را ارائه میدهد یا خیر، بلکه این است که آیا کاربران روزمره میتوانند آن پاسخ را به درستی درک و استفاده کنند یا خیر.
یک مطالعه اخیر که در مجله Jama Network Open منتشر شده است، ۲۱ مدل هوش مصنوعی پیشرو را آزمایش کرد. محققان از آنها خواستند که تشخیصهای پزشکی احتمالی را بررسی کنند.
وقتی به مدلها فقط جزئیات اولیه مانند سن، جنسیت و علائم بیمار داده میشد، آنها در بیش از ۸۰ درصد مواقع در ارائه مجموعه صحیحی از شرایط ممکن شکست میخوردند، اما هنگامی که محققان یافتههای معاینه و نتایج آزمایشگاهی را وارد کردند، دقت به بالای ۹۰ درصد رسید.
در همین حال، یک مطالعه دیگر در ایالات متحده که در مجله Nature Communications Medicine منتشر شده است، نشان داد که چتباتها به راحتی اصطلاحات پزشکی ساختگی را تکرار و حتی در مورد آنها توضیح میدهند.
روی هم رفته، این مطالعات نشان میدهند که نقاط ضعف موجود در مطالعه جدید، ویژگیهای یک روش تجربی نیستند، بلکه منعکس کننده چیزی اساسیتر در مورد جایگاه امروز فناوری هستند.
به نقل از ایسنا، این چتباتها از بین نمیروند و نباید هم بروند. آنها میتوانند موضوعات پیچیده را خلاصه کنند، به تهیه سوالات برای پزشکان کمک کنند و به عنوان نقطه شروعی برای تحقیق عمل کنند، اما این مطالعه به روشنی بیان میکند که نباید با آنها به عنوان مراجع پزشکی مستقل رفتار شود.
اگر از یکی از این چتباتها برای مشاوره پزشکی استفاده میکنید، هرگونه ادعای سلامتی که ارائه میدهد را بررسی کنید، ارجاعات آن را به عنوان پیشنهادهایی برای بررسی به جای واقعیت در نظر نگیرید و توجه کنید که پاسخ، مطمئن به نظر میرسد، اما هیچ سلب مسئولیتی ارائه نمیدهد.





