روزنامه همشهری، محبوب ترین مجموعه دارای برچسب های ادات سخن در زبان فارسی

تشخیص موجودیت‌های نامدار یکی از موضوعات پردازش زبان طبیعی است که نیاز به پیکره دارد. این پیکره  شامل 300 هزار کلمه ( برگرفته از پیکرهٔ بی‌جن‌خان) است و سه ردهٔ شخص (مثال: سید علی قاضی)، مکان (مثال: پارک آب و آتش) و سازمان (مثال: مجلس شورای اسلامی) در آن برچسب خورده که با فرمت IOB ارائه شده است.

با وجود پژوهش های صورت گرفته در مورد شناسایی موجودیت های نامدار فارسی، عملکرد راه حل های پیشنهادی هنوز با جایگاه کنونی این عملیات در زبان انگلیسی برابری نمی کند. علاوه بر این، بنابر اطلاعاتی که در اختیار است، تمام پیکره های متنی تشخیص موجودیت های نامدار در فارسی (از جمله ParsNER  و (ArmanPersoNERCorpus بر اساس مجموعه بی‌جن‌خان(مجموعه‌ای است از متون فارسی شامل بیش از ۲ میلیون و ۶۰۰ هزار کلمه که با ۵۵۰ نوع برچسب POS برچسب‌گذاری شده‌اند. این پیکره که در پژوهشکدهٔ پردازش هوشمند علائم تهیه شده است همچنین شامل بیش از ۴۳۰۰ تگ موضوعی چون سیاسی، تاریخی و … برای متون است.) ساخته شده است، که از محتویات روزنامه همشهری، به عنوان محبوب ترین مجموعه دارای برچسب های ادات سخن در زبان فارسی ایجاد شده است.

به اين ترتيب، تمام روش های شناسایی موجودیت های نامدار در زبان فارسي، بر روی داده های خبري آموزش داده شده است و این روش ها برای اجرا روی کاربردهای ديگر مانند متون رسانه هاي اجتماعي به اندازه کافی منعطف نیستند.

در مقاله شناسایی موجودیت های نامدار در متون فارسی رسانه های اجتماعی با دیدگاه یادگیری ماشین که در پنجمین کنفرانس وب پژوهی ارائه شد، پیکره متنی  ParsNER-Social   معرفی می شود که مبتنی بر مجموعه داده های شبکه های اجتماعی و روشی مبتنی بر میدان های تصادفی شرطی به منظور شناسایی موجودیت های نامدار پیاده سازی شده است. این روش با پیشرفته ترین روش های  شناسایی موجودیت های نامدار در زبان فارسی مقایسه شده و نتایج به دست آمده نشاندهنده برتری روش پیشنهادی بر آنهاست.

براساس این گزارش، مقاله «شناسایی موجودیت های نامدار در متون فارسی رسانه های اجتماعی با دیدگاه یادگیری ماشین» توسط مجید عسگری بیدهندی و بهروز مینایی بیدگلی از دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران تالیف و به این کنفرانس ارائه شده است.

 

 

No tags for this post.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا