هشدار پزشکان درباره هوش مصنوعی:
وقتی یک اشتباه AI می‌تواند خطرناک شود

ghafari۱۴۰۵-۰۳-۱۰

در عصری که هوش مصنوعی به سرعت در حال تبدیل شدن به مشاور روزمره میلیون‌ها نفر است، مرز میان «دسترسی آسان به اطلاعات» و «اعتماد به تصمیم‌گیری ماشینی» بیش از هر زمان دیگری اهمیت پیدا کرده است.

به گزارش سیناپرس، بسیاری از کاربران امروز پیش از تماس با پزشک، مراجعه به درمانگاه یا حتی مشورت با اعضای خانواده، علائم بیماری خود را در چت‌بات‌های هوش مصنوعی جست‌وجو می‌کنند؛ پدیده‌ای که اگرچه می‌تواند آگاهی عمومی درباره سلامت را افزایش دهد، اما نگرانی‌های تازه‌ای را نیز درباره دقت اطلاعات، امنیت بیماران و آینده رابطه میان انسان و فناوری ایجاد کرده است. اکنون نتایج یک مطالعه جدید از آمریکا نشان می‌دهد که حتی پیشرفته‌ترین سامانه‌های هوش مصنوعی نیز هنوز فاصله قابل توجهی با ایفای نقش یک مشاور پزشکی قابل اعتماد دارند.

مطالعه‌ای که توسط پژوهشگران دانشگاه پن‌استیت آمریکا انجام شده نشان می‌دهد؛ حتی پیشرفته‌ترین مدل‌های هوش مصنوعی نیز در پاسخ به سوالات پزشکی، نرخ خطایی نگران‌کننده دارند؛ به طوری که بهترین مدل آزمایش‌شده در این تحقیق حدود ۲۰ درصد مواقع پاسخ‌های ناقص، نادرست یا بالقوه خطرناک ارائه کرده است.

وقتی «دکتر هوش مصنوعی» اشتباه می‌کند

در سال‌های اخیر بسیاری از افراد به جای مراجعه اولیه به پزشک، علائم بیماری خود را در چت‌بات‌های هوش مصنوعی وارد می‌کنند. سرعت بالا، دسترسی ۲۴ ساعته و رایگان بودن این ابزارها باعث شده محبوبیت آن‌ها به شکل چشمگیری افزایش یابد.

اما یافته‌های این پژوهش نشان می‌دهد که اعتماد بیش از حد به این فناوری می‌تواند پیامدهای جدی برای سلامت افراد داشته باشد.

کارشناسان علوم اجتماعی معتقدند استقبال گسترده از چت‌بات‌های هوش مصنوعی تنها یک تحول فناورانه نیست، بلکه بازتابی از تغییر رفتار جامعه در مواجهه با نظام سلامت است. افزایش هزینه‌های درمان، دشواری دسترسی سریع به پزشکان متخصص، کمبود وقت و تمایل به دریافت پاسخ فوری باعث شده است بسیاری از افراد هوش مصنوعی را به عنوان نخستین نقطه مراجعه برای یافتن پاسخ‌های پزشکی انتخاب کنند. با این حال متخصصان هشدار می‌دهند که سهولت دسترسی نباید با اعتبار علمی یکسان تلقی شود.

محققان چهار مدل شناخته‌شده هوش مصنوعی شامل ChatGPT-4o، ChatGPT-۳.۵، Gemini ۱.۵ Pro و Llama3-8b را در معرض صدها پرسش پزشکی واقعی قرار دادند. سپس ۹ پزشک دارای بورد تخصصی، پاسخ‌های تولیدشده را از نظر دقت علمی، کیفیت اطلاعات، استدلال پزشکی و میزان احتمال آسیب به بیمار ارزیابی کردند.

فقط سه‌چهارم پاسخ‌ها قابل قبول بودند

نتایج نشان داد؛ از مجموع ۲۱۲ پاسخ تولیدشده توسط هوش مصنوعی، تنها ۷۶ درصد از دید پزشکان «معتبر» ارزیابی شدند. این بدان معناست که تقریباً از هر چهار پاسخ پزشکی، یک پاسخ استانداردهای لازم را نداشته است.

در میان مدل‌های بررسی‌شده، ChatGPT-4o بهترین عملکرد را ثبت کرد و توانست امتیاز اعتبار ۸۴.۶ درصدی کسب کند. با این حال حتی این مدل نیز در بیش از ۱۵ درصد موارد نتوانست پاسخ قابل اعتماد ارائه دهد.

در سوی دیگر، مدل Llama3-8b ضعیف‌ترین عملکرد را داشت و تنها نیمی از پاسخ‌های آن مورد تأیید پزشکان قرار گرفت.

پژوهشگران دریافتند: میزان دقت پاسخ‌ها به نوع سوال نیز بستگی دارد. هوش مصنوعی در سوالات مرتبط با زنان و زایمان عملکرد نسبتاً مطلوبی داشت، اما در حوزه‌هایی مانند نورولوژی (بیماری‌های مغز و اعصاب)، پزشکی داخلی و بیماری‌های پوستی با مشکلات جدی‌تری روبه‌رو شد.

متخصصان معتقدند تشخیص بیماری‌های عصبی اغلب پیچیده و وابسته به جزئیات فراوان است. همچنین درماتولوژی یا بیماری‌های پوستی به شدت به معاینه بصری وابسته است؛ قابلیتی که چت‌بات‌های متنی هنوز از آن بی‌بهره‌اند.

طول سؤال هم در کیفیت پاسخ مؤثر است

یکی دیگر از یافته‌های جالب این تحقیق، ارتباط میان طول سؤال و کیفیت پاسخ بود.بررسی‌ها نشان داد؛ سوالات بسیار کوتاه یا بیش از حد طولانی، معمولاً پاسخ‌های ضعیف‌تری دریافت می‌کنند. بهترین نتایج زمانی حاصل شد که کاربران سوالات خود را به شکل مشخص، متمرکز و با توضیحاتی در حد متوسط مطرح کردند.

پزشکان شرکت‌کننده در این مطالعه تأکید کردند، هرچه اطلاعات ارائه‌شده دقیق‌تر و هدفمندتر باشد، احتمال دریافت پاسخ مناسب از هوش مصنوعی افزایش پیدا می‌کند.

حتی کتابخانه‌های پزشکی هم مشکل را حل نکردند

در بخش دیگری از این پژوهش، محققان تلاش کردند با استفاده از فناوری موسوم به «تولید مبتنی بر بازیابی اطلاعات» (RAG)، دسترسی مدل‌های هوش مصنوعی را به منابع معتبر پزشکی، کتاب‌های درسی، دستورالعمل‌های درمانی و مقالات علمی فراهم کنند.

انتظار می‌رفت این اقدام باعث افزایش دقت پاسخ‌ها شود؛ اما نتایج برخلاف تصور بود.متخصصان در بسیاری از موارد نسخه‌های معمولی و بدون دسترسی به این منابع را ترجیح دادند. در برخی مدل‌ها نیز افزودن منابع پزشکی هیچ بهبود معناداری ایجاد نکرد.

این یافته نشان می‌دهد صرف دسترسی به داده‌های بیشتر، الزاماً به معنای تصمیم‌گیری بهتر هوش مصنوعی نیست.

نگرانی جدی پزشکان درباره سلامت روان

شاید نگران‌کننده‌ترین بخش تحقیق به حوزه سلامت روان مربوط باشد. تمام پزشکان حاضر در مطالعه نسبت به استفاده از هوش مصنوعی در بحران‌های روانی هشدار دادند.

برخی از متخصصان معتقد بودند پاسخ‌های اشتباه یا نامناسب در شرایطی مانند افسردگی شدید، افکار خودکشی یا بحران‌های روحی می‌تواند به طور مستقیم جان افراد را به خطر بیندازد.

یکی از پزشکان شرکت‌کننده تصریح کرد اگر یک سیستم هوش مصنوعی نتواند در مواجهه با بحران‌های سلامت روان عملکردی کاملاً ایمن داشته باشد، اساساً نباید اجازه پاسخ‌گویی در چنین شرایطی را داشته باشد.

خطر دیگری به نام حریم خصوصی

علاوه بر مسئله دقت، پزشکان نسبت به موضوع حفاظت از اطلاعات شخصی نیز ابراز نگرانی کردند.کاربران اغلب هنگام مشورت با چت‌بات‌ها، جزئیات حساسی از وضعیت جسمی، سوابق بیماری و اطلاعات پزشکی خود را وارد می‌کنند؛ داده‌هایی که در صورت سوءاستفاده یا نشت اطلاعات می‌تواند پیامدهای جدی برای حریم خصوصی افراد داشته باشد.

هوش مصنوعی مشاور است، نه پزشک

به باور پژوهشگران، مهم‌ترین پیام این مطالعه نه رد کامل هوش مصنوعی، بلکه تعیین جایگاه واقعی آن در نظام سلامت است. بسیاری از متخصصان معتقدند این فناوری می‌تواند در افزایش سواد سلامت، آموزش عمومی، آشنایی بیماران با علائم بیماری‌ها و حتی کاهش بار مراجعات غیرضروری به مراکز درمانی نقش مثبتی ایفا کند. اما از منظر پزشکی، فاصله قابل توجهی میان «ارائه اطلاعات» و «تشخیص بالینی» وجود دارد؛ فاصله‌ای که هنوز هیچ الگوریتمی نتوانسته آن را به طور کامل پر کند.

در نهایت تصمیم‌گیری درباره سلامت انسان همچنان نیازمند تجربه، قضاوت حرفه‌ای و درک شرایط فردی بیمار است؛ عواملی که در حال حاضر تنها در اختیار پزشکان قرار دارد.

پژوهشگران تأکید می‌کنند؛ نتایج این مطالعه به هیچ وجه به معنای آمادگی هوش مصنوعی برای جایگزینی پزشکان نیست. نرخ خطای حدود ۲۰ درصدی برای بهترین مدل موجود، رقمی است که در هیچ محیط درمانی استانداردی قابل پذیرش نیست.

در پزشکی، «تقریباً درست» هنوز به اندازه کافی خوب نیست؛ زیرا گاهی یک اشتباه کوچک می‌تواند بهای بسیار سنگینی داشته باشد.

گزارش :فرگل غفاری

ghafari۱۴۰۵-۰۳-۱۰