نماد سایت خبرگزاری سیناپرس

داده های رسانه های اجتماعی بزرگترین منابع داده جهانند

به طوری که می توان آن را یکی از بزرگترین منابع داده در جهان به شمار آورد. قسمت عمده ای از این داده ها، متون زبان طبیعی هستند. اما زبان طبیعی، بسیار مبهم است.

پیونددهی موجودیت، وظیفه پیوند یادکردهای موجودیت در متن به موجودیت های مرتبط به آنها در یک پایگاه دانش است. بیشتر سامانه های پیونددهی موجودیت با جستجوی موجودیت های نامزد شروع کرده و سپس آنها را ابهام زدایی کرده و در نهایت بهترین نامزد را انتخاب می کنند.

در سال های اخیر، به خاطر نبود یک گراف دانش فارسی، این عملیات در زبان فارسی انجام نشده بود. خوشبختانه، در سال ۱۳۹۷ فارسبِیس به عنوان یک گراف دانش فارسی با تقریباً نیم میلیون موجودیت معرفی شد.

بر این اساس، در مقاله ای تحت عنوان «پیونددهی موجودیت ها با روش بدون نظارت در متون فارسی رسانه های اجتماعی» یک سامانه پیونددهی موجودیت فارسیِ بدون نظارت را با استفاده از ویژگی های وابسته به محتوا و مستقل از محتوا برای پیونددهی موجودیت های یک متن به پایگاه دانش فارسبیس پیشنهاد می کنیم.

برای این منظور، اولین پیکره متنی پیونددهی موجودیت بر روی زبان فارسیِ متشکل از متون رسانه اجتماعی را که بر اساس تعدادی از کانال های فارسی معروف در رسانه اجتماعی تلگرام ساخته شده است را منتشر می کنیم.

نتایج آزمایش، عملکرد بسیار کارآمد این روش پیشنهادی را نشان می دهد که با جدیدترین روش های مربوطه در زبان انگلیسی قابل مقایسه است.

بر اساس این گزارش، مجید عسگری بیدهندی و بهروز مینایی بیدگلی از دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران مولف مقاله ای با عنوان «پیونددهی موجودیت ها با روش بدون نظارت در متون فارسی رسانه های اجتماعی» که در پنجمین کنفرانس وب پژوهی دانشگاه علم فرهنگ ارائه شده، هستند.

No tags for this post.
خروج از نسخه موبایل