استادیار دانشکده مهندسی کامپیوتر دانشگاه صنعتی خواجه نصیرالدین طوسی و استاد راهنمای طرح 'خلاصه ساز متون فارسی بر پایه خوشه بندی و به کمک الگوریتم بهینه سازی جنگل' درباره ضرورت انجام و ویژگی های این برنامه به ایرنا گفت: یکی از فعالیت های دانش آموزان و دانشجویان، خلاصه کردن جزوه و کتاب های درسی است که این کار وقت زیادی از آنها می گیرد و به طور معمول، خلاصه کردن متن ها توسط افراد مختلف، نتیجه متفاوتی به دست می دهد و ممکن است بعضا با دقت کافی همراه نباشد.
دکتر چیترا دادخواه افزود: برهمین اساس تصمیم گرفتیم کار خلاصه کردن متون را به جای افراد به ماشین (رایانه) واگذار کنیم و این کار را با طراحی و تولید 'خلاصه ساز نصیر' از حدود سه چهار سال قبل با همکاری تعدادی از دانشجویان کارشناسی و کارشناسی ارشد دانشگاه صنعتی خواجه نصیر آغاز کردیم.
وی خاطرنشان کرد: طراحی و تهیه خلاصه ساز متون، پیش از این بارها به زبان انگلیسی انجام شده بود و جای خالی آن برای زبان فارسی احساس می شد.
دادخواه به دشواری های انجام این پروژه اشاره کرد و گفت: در این راه با چالش های گوناگونی روبه رو بودیم چراکه زبان فارسی، پیچیدگی های زیادی دارد به عنوان مثال در زبان انگلیسی، حروف از هم جدا هستند و در هر قسمت از کلمه که قرار بگیرند به یک صورت نوشته و دیده می شوند درحالی که در زبان فارسی، بسیاری از حروف مانند
'لام'، 'سین'، 'ه' و دیگر حروف در ابتدا، وسط و انتهای کلمه، ظاهر متفاوتی به خود می گیرند و این وضعیت، کار تشخیص را برای سیستم سخت می کند.
وی ادامه داد: علاوه بر این، برخی کلمات دو بخشی نیز در متن های زبان فارسی به شکل های متفاوت از هم جدا یا پیوسته نوشته می شوند که این هم بر دشواری های تشخیص آنها در سیستم خلاصه ساز می افزاید.
عضو هیات علمی دانشگاه خواجه نصیر یادآور شد: یکی دیگر از مشکلات تشخیص کلمات و متون فارسی توسط رایانه نیز به مفهوم و معنای آنها برمی گردد مثلا 'گل' به عنوان بخشی از گیاه و 'گل' به معنای خاک خیس، در ظاهر به یک شکل نوشته می شوند ولی معناهای متفاوتی دارند که تشخیص آن توسط ماشین، دشوار است.
وی تصریح کرد: بنابراین ما در طراحی 'خلاصه ساز فارسی نصیر' افزون بر شکل ظاهری، معنی و مفهوم کلمات را در هم درنظرگرفتیم و بر اساس معیارهای شناختی، کلمات مشابه را در خوشه های یکسان قرار دادیم و به کلمات و جملات هم ارزش دادیم تا بتوانیم سیستمی طراحی کنیم که یک خلاصه مختصر و درعین حال، جامع استخراج کند.
دادخواه صرفه جویی در وقت افراد به ویژه دانشجویان را از جمله مزیت های این سیستم رایانه ای برشمرد و گفت: افراد می توانند یک متن 100 صفحه ای در اختیار 'خلاصه ساز نصیر' قرار دهند و یک متن سه صفحه ای تحویل بگیرند درحالی که مطالب تکراری حذف شده و خدشه ای نیز به کلیت و مفهوم اصلی متن وارد نشده است یا می توان 20 جلد کتاب را به سیستم داد و از آن خواست که حجم آن را به 30 درصد متن اصلی کاهش دهد.
وی با بیان اینکه 'پردازش زبان طبیعی'، یکی از درس های دانشجویان رشته هوش مصنوعی است، افزود: برای آزمایش خروجی و عملکرد 'خلاصه ساز نصیر' از تعدادی دانشجویان به عنوان گروه شاهد استفاده کردیم که آنها یک متن را خلاصه کردند و متن اصلی را به خلاصه ساز نصیر هم دادیم و خروجی هر دو را با یکدیگر مقایسه کردیم که عملکرد برنامه رایانه ای کاملا رضایتبخش بود.
به گفته دادخواه، تعدادی دیگر از دانشگاه های کشور در زمینه خلاصه سازی یا ترجمه متون با استفاده از هوش مصنوعی، فعالیت هایی را آغاز کرده اند که برخی از آنها به ترجمه متون انگلیسی، ترجمه یا طراحی ابزارهای این کار اختصاص دارد و خلاصه سازی متن های فارسی، یک ایده جدید است.
خلاصه ساز نصیر به عنوان یک برنامه رایانه ای در حال حاضر تهیه شده و آخرین نسخه آن در قالب پروژه کارشناسی ارشد ابوالفضل سراوانی با راهنمایی' چیترا دادخواه' با عنوان 'خلاصه ساز متون فارسی بر پایه خوشه بندی و به کمک الگوریتم بهینه سازی جنگل' ارائه شده است.
این خلاصه ساز اخیرا در اولین دوره مسابقات پردازش زبان فارسی (پارسی پرداز-95) مقام دوم را کسب کرد.