هشدار پزشکان درباره هوش مصنوعی:
وقتی یک اشتباه AI میتواند خطرناک شود

در عصری که هوش مصنوعی به سرعت در حال تبدیل شدن به مشاور روزمره میلیونها نفر است، مرز میان «دسترسی آسان به اطلاعات» و «اعتماد به تصمیمگیری ماشینی» بیش از هر زمان دیگری اهمیت پیدا کرده است.
به گزارش سیناپرس، بسیاری از کاربران امروز پیش از تماس با پزشک، مراجعه به درمانگاه یا حتی مشورت با اعضای خانواده، علائم بیماری خود را در چتباتهای هوش مصنوعی جستوجو میکنند؛ پدیدهای که اگرچه میتواند آگاهی عمومی درباره سلامت را افزایش دهد، اما نگرانیهای تازهای را نیز درباره دقت اطلاعات، امنیت بیماران و آینده رابطه میان انسان و فناوری ایجاد کرده است. اکنون نتایج یک مطالعه جدید از آمریکا نشان میدهد که حتی پیشرفتهترین سامانههای هوش مصنوعی نیز هنوز فاصله قابل توجهی با ایفای نقش یک مشاور پزشکی قابل اعتماد دارند.
مطالعهای که توسط پژوهشگران دانشگاه پناستیت آمریکا انجام شده نشان میدهد؛ حتی پیشرفتهترین مدلهای هوش مصنوعی نیز در پاسخ به سوالات پزشکی، نرخ خطایی نگرانکننده دارند؛ به طوری که بهترین مدل آزمایششده در این تحقیق حدود ۲۰ درصد مواقع پاسخهای ناقص، نادرست یا بالقوه خطرناک ارائه کرده است.
وقتی «دکتر هوش مصنوعی» اشتباه میکند
در سالهای اخیر بسیاری از افراد به جای مراجعه اولیه به پزشک، علائم بیماری خود را در چتباتهای هوش مصنوعی وارد میکنند. سرعت بالا، دسترسی ۲۴ ساعته و رایگان بودن این ابزارها باعث شده محبوبیت آنها به شکل چشمگیری افزایش یابد.
اما یافتههای این پژوهش نشان میدهد که اعتماد بیش از حد به این فناوری میتواند پیامدهای جدی برای سلامت افراد داشته باشد.
کارشناسان علوم اجتماعی معتقدند استقبال گسترده از چتباتهای هوش مصنوعی تنها یک تحول فناورانه نیست، بلکه بازتابی از تغییر رفتار جامعه در مواجهه با نظام سلامت است. افزایش هزینههای درمان، دشواری دسترسی سریع به پزشکان متخصص، کمبود وقت و تمایل به دریافت پاسخ فوری باعث شده است بسیاری از افراد هوش مصنوعی را به عنوان نخستین نقطه مراجعه برای یافتن پاسخهای پزشکی انتخاب کنند. با این حال متخصصان هشدار میدهند که سهولت دسترسی نباید با اعتبار علمی یکسان تلقی شود.
محققان چهار مدل شناختهشده هوش مصنوعی شامل ChatGPT-4o، ChatGPT-3.5، Gemini 1.5 Pro و Llama3-8b را در معرض صدها پرسش پزشکی واقعی قرار دادند. سپس ۹ پزشک دارای بورد تخصصی، پاسخهای تولیدشده را از نظر دقت علمی، کیفیت اطلاعات، استدلال پزشکی و میزان احتمال آسیب به بیمار ارزیابی کردند.
فقط سهچهارم پاسخها قابل قبول بودند
نتایج نشان داد؛ از مجموع ۲۱۲ پاسخ تولیدشده توسط هوش مصنوعی، تنها ۷۶ درصد از دید پزشکان «معتبر» ارزیابی شدند. این بدان معناست که تقریباً از هر چهار پاسخ پزشکی، یک پاسخ استانداردهای لازم را نداشته است.
در میان مدلهای بررسیشده، ChatGPT-4o بهترین عملکرد را ثبت کرد و توانست امتیاز اعتبار ۸۴.۶ درصدی کسب کند. با این حال حتی این مدل نیز در بیش از ۱۵ درصد موارد نتوانست پاسخ قابل اعتماد ارائه دهد.
در سوی دیگر، مدل Llama3-8b ضعیفترین عملکرد را داشت و تنها نیمی از پاسخهای آن مورد تأیید پزشکان قرار گرفت.
پژوهشگران دریافتند: میزان دقت پاسخها به نوع سوال نیز بستگی دارد. هوش مصنوعی در سوالات مرتبط با زنان و زایمان عملکرد نسبتاً مطلوبی داشت، اما در حوزههایی مانند نورولوژی (بیماریهای مغز و اعصاب)، پزشکی داخلی و بیماریهای پوستی با مشکلات جدیتری روبهرو شد.
متخصصان معتقدند تشخیص بیماریهای عصبی اغلب پیچیده و وابسته به جزئیات فراوان است. همچنین درماتولوژی یا بیماریهای پوستی به شدت به معاینه بصری وابسته است؛ قابلیتی که چتباتهای متنی هنوز از آن بیبهرهاند.
طول سؤال هم در کیفیت پاسخ مؤثر است
یکی دیگر از یافتههای جالب این تحقیق، ارتباط میان طول سؤال و کیفیت پاسخ بود.بررسیها نشان داد؛ سوالات بسیار کوتاه یا بیش از حد طولانی، معمولاً پاسخهای ضعیفتری دریافت میکنند. بهترین نتایج زمانی حاصل شد که کاربران سوالات خود را به شکل مشخص، متمرکز و با توضیحاتی در حد متوسط مطرح کردند.
پزشکان شرکتکننده در این مطالعه تأکید کردند، هرچه اطلاعات ارائهشده دقیقتر و هدفمندتر باشد، احتمال دریافت پاسخ مناسب از هوش مصنوعی افزایش پیدا میکند.
حتی کتابخانههای پزشکی هم مشکل را حل نکردند
در بخش دیگری از این پژوهش، محققان تلاش کردند با استفاده از فناوری موسوم به «تولید مبتنی بر بازیابی اطلاعات» (RAG)، دسترسی مدلهای هوش مصنوعی را به منابع معتبر پزشکی، کتابهای درسی، دستورالعملهای درمانی و مقالات علمی فراهم کنند.
انتظار میرفت این اقدام باعث افزایش دقت پاسخها شود؛ اما نتایج برخلاف تصور بود.متخصصان در بسیاری از موارد نسخههای معمولی و بدون دسترسی به این منابع را ترجیح دادند. در برخی مدلها نیز افزودن منابع پزشکی هیچ بهبود معناداری ایجاد نکرد.
این یافته نشان میدهد صرف دسترسی به دادههای بیشتر، الزاماً به معنای تصمیمگیری بهتر هوش مصنوعی نیست.
نگرانی جدی پزشکان درباره سلامت روان
شاید نگرانکنندهترین بخش تحقیق به حوزه سلامت روان مربوط باشد. تمام پزشکان حاضر در مطالعه نسبت به استفاده از هوش مصنوعی در بحرانهای روانی هشدار دادند.
برخی از متخصصان معتقد بودند پاسخهای اشتباه یا نامناسب در شرایطی مانند افسردگی شدید، افکار خودکشی یا بحرانهای روحی میتواند به طور مستقیم جان افراد را به خطر بیندازد.
یکی از پزشکان شرکتکننده تصریح کرد اگر یک سیستم هوش مصنوعی نتواند در مواجهه با بحرانهای سلامت روان عملکردی کاملاً ایمن داشته باشد، اساساً نباید اجازه پاسخگویی در چنین شرایطی را داشته باشد.
خطر دیگری به نام حریم خصوصی
علاوه بر مسئله دقت، پزشکان نسبت به موضوع حفاظت از اطلاعات شخصی نیز ابراز نگرانی کردند.کاربران اغلب هنگام مشورت با چتباتها، جزئیات حساسی از وضعیت جسمی، سوابق بیماری و اطلاعات پزشکی خود را وارد میکنند؛ دادههایی که در صورت سوءاستفاده یا نشت اطلاعات میتواند پیامدهای جدی برای حریم خصوصی افراد داشته باشد.
هوش مصنوعی مشاور است، نه پزشک
به باور پژوهشگران، مهمترین پیام این مطالعه نه رد کامل هوش مصنوعی، بلکه تعیین جایگاه واقعی آن در نظام سلامت است. بسیاری از متخصصان معتقدند این فناوری میتواند در افزایش سواد سلامت، آموزش عمومی، آشنایی بیماران با علائم بیماریها و حتی کاهش بار مراجعات غیرضروری به مراکز درمانی نقش مثبتی ایفا کند. اما از منظر پزشکی، فاصله قابل توجهی میان «ارائه اطلاعات» و «تشخیص بالینی» وجود دارد؛ فاصلهای که هنوز هیچ الگوریتمی نتوانسته آن را به طور کامل پر کند.
در نهایت تصمیمگیری درباره سلامت انسان همچنان نیازمند تجربه، قضاوت حرفهای و درک شرایط فردی بیمار است؛ عواملی که در حال حاضر تنها در اختیار پزشکان قرار دارد.
پژوهشگران تأکید میکنند؛ نتایج این مطالعه به هیچ وجه به معنای آمادگی هوش مصنوعی برای جایگزینی پزشکان نیست. نرخ خطای حدود ۲۰ درصدی برای بهترین مدل موجود، رقمی است که در هیچ محیط درمانی استانداردی قابل پذیرش نیست.
در پزشکی، «تقریباً درست» هنوز به اندازه کافی خوب نیست؛ زیرا گاهی یک اشتباه کوچک میتواند بهای بسیار سنگینی داشته باشد.
گزارش :فرگل غفاری







