تفاوت انسان و کامپیوتر در بینایی
در حقیقت این پروسه یکی از پیچیدهترین پروسههایی است که تا بهحال سعی کردیم آن را درک کنیم، چه برسد که بخواهیم مراحل آن را دوباره سازی کنیم! اختراع و ساخت دستگاهی که مانند انسانها قدرت بینایی داشته باشد کار بسیار سختی است، نه فقط به این علت که به کامپیوتر دستور بدهیم آن را انجام دهد، بلکه هنوز چگونگی انجام این کار در قدم اول را هم بلد نیستیم.
پروسهای که رخ میدهد تقریبا به این شکل است: تصویر توپ از چشم شما عبور میکند و با شبکیه چشم شما برخورد میکند و شبکیه پس از انجام چند آنالیز اولیه آن را به مغز ارسال میکند و قشر بینایی آنالیزهای عمیقتری بر روی آن انجام میدهد. پس تصاویر را به بخشهای دیگر قشر بینایی انتقال میدهد تا در آنجا تصویر را با هرآنچه که تا حالا مغز شناخته است، مقایسه میکند و سپس با توجه به ابعاد و ظاهر شی، آن را دسته بندی میکند و تشخیص میدهد که آن جسم چیست، حدودا چقدر وزن دارد و در ادامه مغز تصمیم به انجام کاری(واکنشی) میگیرد: دستتان را بلند میکنید و توپ را میگیرید. این عکسالعمل به صورت ناخودآگاه و در پروسه دوم اتفاق میافتد و هیچوقت خطایی در آن رخ نمیدهد. بنابراین شبیه سازی مراحل دیدن تصاویر توسط انسان مشکل اصلی نیست، بلکه مشکل مجموعه این مراحل است که عملکرد هرکدام به بخش دیگری وابسته است.
تا بحال کسی این مراحل را ساده تلقی نکرده است. البته بهجز "ماروین مینسکی" نابغه تکنولوژی Al(هوش مصنوعی) که در سال 1966 به یک دانشآموز دیپلمه چگونگی اتصال دوربین به کامپیوتر را آموزش داد و از او خواست که مراحل را شرح دهد. آن نوجوان امروز 50 سال سن دارد و میگوید هنوز درحال کارکردن بر روی آن موضوع است!
مطالعات جدی در این زمینه از دهه 50 و در سه بخش کلید خورد: ساخت چشم(سخت)، ساخت قشای بصری(خیلی سخت) و ساخت دیگر مراحل مغز(سختترین مرحلهای که تا بحال دیده شده).
دیدن
خلق یک چشم جدید، مرحلهای است که بیشترین پیشرفت را در آن داشتهایم. در طول چند دهه گذشته، سنسورها و پردازشگرهای تصویری را خلق کردهایم که به شکلی با تواناییهای انسان قابل رقابت است. با وجود لنزهای اپتیکال بینقص و پیکسلهای ساخته شده با دقت نانومتری، دقت و حساسیت دوربینهای جدید را باید شگفتانگیز بنامیم. دوربینهای جدید قادرند هزاران تصویر را در کسری از ثانیه ثبت کنند و فاصله را با دقت بالایی تشخیص دهند.
علیرغم وضوح بالای خروجیهای این دوربینها، هنوز تفاوت چشمگیری نسبت به دوربینهای سوراخ سوزنی قرن 19 مشاهده نمیکنیم. بهترین سنسور دوربین شناخته شده قادر به تشخیص یک توپ نبود، چه برسد به ارسال دستور برای گرفتن آن. به معنای دیگر سختافزار بدون نرمافزار کاملا محدود است. این مسئله خود مشکل بزرگتری به حساب میآید. اما به لطف تکنولوژی دوربینهای مدرن، سیستم غنی و انعطاف پذیری برای انجام کارهایمان فراهم شدهاست.
توضیح دادن
اینجا جای مناسبی برای توضیح و کالبدشکافی اعصاب نیست، اما کافی است که بگوییم بیشتر قسمتهای مغز برای مراحل دیدن استفاده میشود و مغز انسان با دیدن و صحبت کردن تکامل پیدا میکند البته این ویژگی شامل سلولها نیز میشود. میلیاردها سلول وظیفه دارند که الگوها را از سیگنالهای شلوغ و بهم ریخته شبکیه خارج کنند.
در صورت وجود کنتراست در طول یک خط یا زاویه خاص و یا حرکت سریع اشیاء در جهت خاص، حسگرهای چشم تحریک میشوند. شبکههای نرونی سطح بالاتر، این الگوها را مانند حلقهی درحال حرکت به سمت بالا به الگوهای بزرگتری تبدیل میکنند. سپس شبکه دیگری از نرونها نیز با آنها هماهنگ میشود. این حلقه به رنگ سفید و دارای خطهایی به رنگ قرمز است و تصاویر با جزئیات کاملتری از این مواد اولیه بهوجود میآیند.
این فرمول برای چند شی در فضای تحت کنترل قابل اجرا بود. اما تصور کنید که میخواهید تمام اشیا اطرافتان را به این شکل تعریف کنید، با زوایای مختلف با درجه نوردهی و حرکت متغیر و صدها ویژگی متفاوت دیگر. واضح است برای رسیدن به نوپا ترین درجه از این نوع شناخت، نیازمند حجم عظیمی از دادهها هستیم.
نگرش "ساخت از ابتدا تا انتها" با تقلید از آنچه در مغز یافته شده، امیدوارکنندهتر است. یک کامپیوتر قادر به اجرای یک سری تغییرات بر روی تصویر است و میتواند لبههای جسم را تشخیص دهد و هم چنین روی اشیایی تغییر ایجاد کند که در یک تصویر آن را مشخص کردهایم. این مراحل شامل مقدار عظیمی از معادلات ریاضی و آمار است که در کامپیوتر به اطلاعات تبدیل میشوند. کامپیوتر اشیایی را که مشاهده میکند را با اشکالی که برای شناسایی در اختیار دارد تطبیق میدهد. به روشی که مغز ما همین پروسه را انجام میدهد.
دانشمندان درحال کار بر روی اسمارتفونها هستند که آنها را قادر سازند اشیایی که از دریچه دوربین دیده میشوند را تشخیص دهند و این کار را با نمایش دادن اسامی اشیا درون محیط، بر روی تصویر انجام میدهند. در اینجا نمونه تصویری از یک خیابان با لیبلهای به شکل نمونه اولیه داریم.
چیزی که تصویر بالا نشان میدهد، نتیجه محاسبات انجام شده توسط کامپیوتر است. اجسامی که در تصویر بالا کامپیوتر آنها را نامگذاری کرده است، تا حد زیادی به واقعیت نزدیک هستند و خیلی از آنها را درست تشخیص داده است. در سالهای اخیر به دلیل نیاز به حجم عظیمی از محاسبات، ساخت و بکارگیری شبکههای عصبی مصنوعی غیر عملی شدهاست و همچنین شاهد پیشرفتهای جدی در زمینه محاسبات موازی بودهایم و در این سالها هجوم دانشمندان به سمت استفاده از سیستمهای تقلیدی مشابه سیستم مغز انسان افزایش یافته است. مراحل شناسایی الگوها نیز هر روز در حال سرعت گرفتن است و همواره شاهد پیشرفتهایمان در این زمینه هستیم.
درک کردن
شما میتوانید سیستمی طراحی کنید که هر نوع سیبی را در هر زاویهای، درحال حرکت یا ثابت تشخیص دهد حتی به شکل گاز گرفته شده، اما این سیستم قادر به تشخیص پرتغال نخواهد بود! به همین دلیل سیستم نمیتواند به شما بگوید سیب چیست؟ آیا قابل خوردن است؟ سایز آن چقدر است؟ یا اینکه چه کاربردی خواهد داشت؟ مشکل اینجا است که نرمافزارها و سختافزارها بدون داشتن سیستمعامل، کاربرد زیادی برای شما نخواهند داشت.
این سیستمعامل برای ما، همان بخش باقیمانده مغزمان است که شامل: حافظه کوتاه و بلند مدت، ورودیهای بهدست آمده از حواس مختلف، توجه و شناخت و میلیاردها درس مختلف بدست آمده از تریلیونها تعامل شکل گرفته با دنیا است که با الگویی غیرقابل فهم نوشته شدهاند. این بخشها جهت استفاده شبکه متصل و پیچیده نورونهای عصبی تشکیل شدهاند که خود این شبکه نورونها پیچیدهتر از هرچیزی است که تا به حال با آن برخورد کردهایم.
ما در مرز علم کامپیوتر و بهطور عمومیتر، در مرض علم هوش مصنوعی قرار داریم که متاسفانه تنها در حال چرخیدن به دور خودمان هستیم. با وجود داشمندان کامپوتر، مهندسین، روانشناسان و دانشمندان علوم اعصاب، به سختی میتوانیم تعریف سادهای از کاربرد مغزمان داشته باشیم و بدتر اینکه حتی قادر به شبیه سازی آن هم نیستیم. اما این بدین معنی نیست که علم در بن بست قرار گرفته باشد. آینده بینایی کامپیوتر در ساخت سیستمهای قوی و تخصصی است که از طریق سیستمهای گستردهتری که تمرکز خود را روی مفاهیم پیچیدهای همچون "درک مفهوم"، "تمرکز" و "عمل کردن" قرار دادهاند، به وجود میآیند.
به گزارش آی تی ایران، با وجود اظهاراتمان، بینایی کامپیوتر حتی در ابتدایی ترین مرحله خود، باز هم خارقالعاده عمل میکند. در دوربینها، قادر به تشخیص چهره و لبخند است. در ماشینهای بدون سرنشین، قادر به خواندن علائم ترافیکی و دیدن رهگذران است. در رباتهای موجود در کارخانهها، قادر به نظارت بر دستگاهها و حرکت در میان کارکنان کارخانه است. برای رساندن سطح بینایی کامپیوترها به سطح و کیفیت انسانی، راه بسیار طولانی در پیش داریم، اما با توج به حجم عظیم و پیچیدگی این تکنولوژی، همین که کامپوترها تا به امروز قابلیت دیدن دارند جای شگفتی دارد.