احیاء تصاویر دیجیتال ۱۰۰ ساله با برنامه ای جدید

کد خبر : 117015 چهارشنبه 15 اردیبهشت 1400 - 12:09:02

هر روز میلیاردها عکس و فیلم در برنامه­‌های مختلف رسانه­‌های اجتماعی ارسال می‌­شوند. مشکلی که در تصاویر استاندارد گرفته شده توسط تلفن­‌های هوشمند یا دوربین دیجیتال وجود دارد این است که آنها فقط از یک نمای خاص، صحنه را ضبط می­‌کنند.

دانشمندان رایانه تلاش می‌کنند تا تجربه‌­ای سه بعدی برای کاربران فراهم کنند که به آنان امکان مشاهده یک صحنه را با نماهای مختلف بدهد، اما این امر به تجهیزات دوربین ویژه‌ای نیاز دارد که برای  افراد معمولی به راحتی در دسترس نیست. برای تسهیل روند کار، دکتر نیما کلانتری، استاد گروه علوم رایانه و مهندسی دانشگاه A&M تگزاس، امریکا و دانشجوی دکترا، کوئینبو لی، رویکردی مبتنی بر یادگیری ماشین ایجاد کرده‌­اند که به کاربران امکان می­‌دهد یک عکس واحد بگیرند و از آن برای ایجاد نماهای جدید از صحنه استفاده کنند.

کلانتری گفت: «مزیت رویکرد ما این است که اکنون ما به ثبت یک صحنه به روشی خاص محدود نمی­‌شویم. ما می‌­توانیم هر تصویری را حتی با قدمت ۱۰۰ سال در اینترنت بارگیری و استفاده کنیم و در اصل آن را زنده کنیم و از زوایای مختلف به آن نگاه کنیم.»

ترکیب نما، فرآیند تولید نماهای جدید از یک شی یا صحنه با استفاده از تصاویر گرفته شده از یک نمای مشخص است. برای خلق تصاویر جدید، از اطلاعات مربوط به فاصله بین اشیاء در صحنه برای ایجاد یک عکس مصنوعی گرفته شده از یک دوربین مجازی قرار گرفته در نقاط مختلف استفاده می­‌شود.

طی چند دهه گذشته، روش­‌های مختلفی برای ترکیب این تصاویر جدید ایجاد شده است، اما بسیاری از آنها نیاز به کاربری دارند که به‌صورت دستی چندین عکس از یک صحنه را از منظرهای مختلف به‌طور همزمان با پیکربندی­‌ها و سخت‌افزار خاص ضبط کند که این روش دشوار و زمان‌بر است. با این حال، این روش­‌ها برای تولید تصاویر نمای جدید از یک تصویر ورودی طراحی نشده‌اند. برای ساده‌­سازی فرآیند، محققان پیشنهاد کرده‌­اند که همان روند  فقط با یک تصویر انجام شود.

کلانتری گفت: «هنگامی که چندین تصویر دارید، می­‌توانید محل اشیاء موجود در صحنه را از طریق فرایندی به نام سه گوشه‌سازی تخمین بزنید. این بدان معناست که شما می‌­توانید بگویید، به‌عنوان‌مثال، شخصی در جلوی دوربین قرار دارد که خانه‌ و سپس کوه در پس زمینه تصویر وی است. این مورد برای ترکیب نما بسیار مهم است. اما وقتی یک تصویر واحد دارید، همه این اطلاعات باید از همان یک تصویر استنباط شود که چالش برانگیز است.»

با گسترش اخیر یادگیری عمیق که زیرمجموعه‌­ای از یادگیری ماشین است، شبکه­‌های عصبی مصنوعی از مقادیر زیادی داده برای حل مشکلات پیچیده یاد می­‌گیرند، مسئله ترکیب نمای تک تصویر توجه زیادی را به خود جلب کرده است. باوجود این که این روش برای کاربر قابل دسترس­‌تر است، اما یک کاربرد چالش برانگیز برای سیستم است، زیرا اطلاعات کافی برای تخمین محل اشیاء در صحنه وجود ندارد.

آنان برای آموزش یک شبکه یادگیری عمیق جهت ایجاد نمایی جدید بر اساس یک تصویر ورودی واحد، مجموعه بزرگی از تصاویر و تصاویر نمای جدید مربوط به آنها را به شبکه نشان دادند. اگرچه این یک فرآیند دشوار است، اما شبکه یاد می­گیرد که چگونه به مرور زمان این کار را انجام دهد. یک جنبه اساسی این رویکرد، مدل‌سازی صحنه ورودی برای ساده­‌تر کردن روند آموزش برای اجرای شبکه است. اما کلانتری و لی در آزمایش‌های اولیه راهی برای این کار نداشتند.

کلانتری گفت: «ما متوجه شدیم که نمایش صحنه برای آموزش کارآمد شبکه بسیار مهم است.»

محققان برای این که  فرآیند آموزش بیشتر قابل کنترل باشد، تصویر ورودی را به یک تصویر چند صفحه‌ای تبدیل کردند که نوعی نمایش سه بعدی لایه‌ای است. ابتدا آنان تصویر را با توجه به اشیاء موجود در صحنه به سطح­‌های مختلف تقسیم کردند. سپس، برای تولید عکسی از صحنه با نمای جدید، سطح‌­ها را به روشی خاص در مقابل یکدیگر حرکت داده و آنها را ترکیب کردند. با استفاده از این نمایش، شبکه می­‌آموزد که موقعیت اشیاء را در صحنه استنباط کند.

برای آموزش کارآمد شبکه، لی و کلانتری مجموعه‌­ای متشکل با بیش از ۲۰۰۰ صحنه منحصربه‌فرد را به شبکه نشان دادند که حاوی اشیاء مختلف بود. آنان نشان دادند که این رویکرد می‌­تواند تصاویر متنوعی با کیفیت بالا از صحنه­‌های مختلف را ایجاد کند که از روش­‌های پیشرفته قبلی بهتر است.

محققان در حال حاضر در تلاش هستند که رویکرد خود را برای ترکیب فیلم‌ها گسترش دهند. از آنجا که فیلم‌­ها در اصل دسته‌­ای از تصاویر منفرد هستند که به صورت متوالی و با سرعت پخش می‌شوند، می­‌توانند از روش خود برای ایجاد نماهای جدید از هر یک از تصاویر به‌طور مستقل در زمان‌های مختلف استفاده کنند. اما وقتی ویدیوی تازه ایجاد شده پخش می­‌شود، تصویر سوسو می‌زند و ثابت  نیست.

کلانتری گفت: «ما در تلاش هستیم تا این جنبه از رویکرد را بهبود بخشیم تا تولید فیلم از نماهای مختلف مناسب باشد.»

از روش ترکیب نمایش تک تصویر نیز می­‌توان برای تولید تصاویر متمرکز استفاده کرد. همچنین از این روش می­‌توان به‌طور بالقوه برای برنامه­‌های واقعیت مجازی و واقعیت افزوده مانند بازی­‌های ویدیویی و انواع نرم‌­افزارهای مختلف که به شما امکان کشف یک محیط بصری خاص را می­‌دهد، استفاده کرد.

جزئیات بیشتر درباره این کار در مجله Association for Computing Machinery Transactions on Graphics منتشرشده است.

منبع:ایسنا

هرگونه کپی برداری و انتشار مطالب از خبرگزاری بدون ذکر منبع پیگرد قانونی دارد.
نظرات شما

نظرات شما

متن *

[کد امنیتی جدید]