رونمایی از نسخه چهارم موتور جستجوگر بومي «پارسي جو»

sinaadmin1393-11-15

سيناپرس:‌ موتور‌های جستجو امکانات ویژه‌ای برای جستجوی عکس، فیلم، فایل‌های صوتی و اخبار دارند و به کاربر برای سازمان‌یافته‌تر عمل کردن کمک می‌کنند.‌ در حال حاضر تعداد زیادی سایت جستجوگر مانند، bing، Google، Yahoo و … داریم. هر کدام از آنها توسط برنامه‌های گردشگر به نام robot ،web crawler، spider مرتب در وب به دنبال صفحه‌های جدید یا تغییریافته می‌گردند و به محض پیدا کردن آنها، اطلاعات مورد نظر را در پایگاه داده‌ای Database خود، لیست می‌کنند تا در موقع لزوم و هنگام جستجو در اختیار کاربران قرار دهند.

تفاوت موتور جستجوگر بومي پارسی‌جو با سایر موتورهای بومی کشور در این است که اکثر موتورهای بومی فعلی از موتورهای جستجوی دیگر استفاده می‌کنند که به اصطلاح ابر موتور جستجو (متا سرچ انجین) نامیده می شود. به‌عنوان مثال هنگام جستجو با این موتورها، ابتدا عملیات به موتور گوگل ارجاع داده شده و پس از دریافت نتایج و ترکیب آنها به کاربر ارائه می‌شود در حالی که موتور «پارسی‌جو» مانند موتور جستجوی گوگل، مستقل است و بخش‌های مختلف آن اقدام به جمع‌آوری و ثبت داده‌ها می‌کنند.

دكتر سجاد ظريف زاده، مدیر فنی موتور جستجوگر بومي« پارسي جو» در گفتگو با خبرنگار سيناپرس با بيان اينكه یک تیم 40 نفره در دانشکده مهندسی برق و کامپیوتر دانشگاه یزد موفق به طراحي موتور جستجوی «پارسی‌جو» شده است، گفت:‌ در حال حاضر موتور پارسی‌جو روی یک بستر توزیع شده ۳۰ سیستم اجرا شده و حدود ۲۰۰ میلیون صفحه فارسی (از ۵۰۰ میلیون سند) را نمایه‌سازی کرده ‌است. همچنین این سامانه مجهز به پردازشگر و خطایاب فارسی هوشمند است.

استادیار مهندسی کامپیوتر دانشگاه یزد هدف از طراحی این موتور را ارائه سرویس جستجو و سرویس‌های متنوع مورد نیاز مردم کشورمان عنوان كرد و ادامه داد: موتورهای جستجو در دنیا اهمیت ویژه‌ای دارند. در تمامی کشورها موتورهای جستجو از نظر نرخ بازدید دارای رتبه اول هستند. طبق آمار ۸۰ درصد کاربران اینترنت برای اینکه به وب‌سایت مورد نظر خود دسترسی پیدا کنند از یکی از موتورهای جستجو موجود استفاده می‌کنند.

وی با اشاره به اینکه موتورهای جستجو بومی در بسیاری از کشورهای دنیا وجود دارند، افزود: کشورهای کره جنوبی ، روسیه، ژاپن و چین از جمله آنها هستند که با توجه به نیازهای مردم خود اقدام به طراحی این موتورهای جستجو کرده‌اند و اکثریت ترافیک‌ها روی موتورهای بومی آنها قرار دارد. به‌عنوان مثال تنها ۱۸ درصد از کاربران اینترنت کشور چین برای جستجوهایشان از موتور جستجوگر گوگل استفاده می‌کنند یا در کشور روسیه موتور جستجوی بومی این کشور به نام «یاندکس» ۷۰ درصد از ترافیک جستجو کشور را به خود اختصاص داده است. بنابراین با توجه به افزایش استفاده از اینترنت در کشور طی سال‌های اخیر و لزوم بهره‌مندی از موتورهای جستجو در رفع نیازهای کاربران وجود یک موتور جستجوی بومی در کشور بیش از پیش ضرورت دارد.

آغاز پروژه طراحی موتور جستجو بومی از سال ۸۷

وی یادآور شد: فاز مطالعاتی در زمینه موتورهای جستجو در سال 1380 شروع گردیده و همچنین فاز تحقیقاتی پروژه طراحی موتور جستجوی بومی از سال ۸۷ با نام «پارسی‌جو» در دانشکده مهندسی کامپیوتر دانشگاه یزد با حمایت پژوهشگاه ارتباطات و فناوری‌اطلاعات و دانشگاه یزد آغاز شد. سپس سال ۸۸ این موتور جستجوی بومی پیاده‌سازی شد که هم‌اکنون نسخه چهارم آن با پوشش بیش از 250 میلیون صفحه و با بهره گیری از سرویس های متعدد نظیر خبر،آوا و نقشه در آدرس www. parsijoo. ir قابل دسترسي است.

استادیار مهندسی کامپیوتر دانشگاه یزد با بیان اینکه در این پروژه ۴ نفر عضو هيت علمي ، ۳ نفر دانشجوي دكتري، ۱۰ نفر فوق و ۲3 نفر ليسانس حضور دارند، خاطرنشان کرد: برای ادامه فعاليت موتور جستجو بومی بر اساس نقشه راه شرکت و اهداف مورد نظر در سالهای پیش رو نیاز به نیروی انسانی متخصص بیشتری می باشد.

اجزای اصلی موتورهای جستجوگر

دكتر ظريف زاده با بیان اینکه به صورت کلی یک موتور جستجو از سه قسمت اصلی تشکیل شده، تصریح کرد: جمع‌آوری اطلاعات یکی از قسمت‌های اصلی موتور جستجو است یا این واحد که خزشگر نام دارد، گراف وب را پیمایش کرده و محتوای تمام صفحه‌های پیمایش‌‌شده HTM/XML/DOC/PDF/PPT و…) را در یک مخزن بزرگ به صورت فشرده ذخیره می‌کند.

وی افزود: پیمایشگر دو هدف عمده تازه‌سازی و پوشش بالا را به دنبال دارد که با یکدیگر رابطه عکس دارند (با زیاد شدن تازگی اطلاعات پوشش کم می‌شود و بالعکس). بعد از اتمام عمل پیمایش علاوه‌ بر داشتن تمام اسناد موجود در وب، گراف وب ارتباط بین صفحه‌ها را نشان می‌دهد. در حال حاضر الگوریتم‌های مختلفی برای خزش وب ارائه شده است.

استاد دانشگاه یزد، نمایه یا ذخیره‌سازی را قسمت دیگر موتور جستجو نام برد و افزود: این واحد اسناد ذخیره‌شده در مخزن را پردازش کرده و نمایه‌سازی می‌کند. با توجه به حجم وسیع اطلاعات به‌منظور بالا بردن سرعت دسترسی، معمولا عمل نمایه‌سازی به صورت معکوس [BYRN۹۹] انجام می‌گیرد. محتوای اطلاعاتی اسناد باید طوری ذخیره شوند که با توجه به درخواست کاربر به راحتی قابل‌بازیابی باشند. برای ذخیره‌سازی اطلاعات در سطح انتزاعی سه روش مجموعه‌ای (بولی و فازی)، جبری (برداری و شبکه‌های عصبی) و احتمالی [RW۹۴] وجود دارند که در حال حاضر روش احتمالی بهترین جواب را ارائه داده است.

البته عملیاتی مانند خوشه‌یابی و دسته‌‌بندی وب در اینجا انجام می‌شود. همچنین به دلیل حجم بالای اطلاعات و تعداد درخواست‌های زیاد، لازم است از سیستم‌های موازی و توزیع‌شده در اینجا بهره برد.

وی با بیان اینکه موتور بازیابی قسمت دیگر موتورهای جستجو است، ادامه داد: موتور بازیابی، رابطه مستقیمی با بخش نمایه‌سازی و کاربران دارد. وظیفه اصلی این بخش پردازش پرس‌وجو و رتبه‌بندی جواب‌هاست و از دو واحد پردازش پرس‌وجو و رتبه‌بندی تشکیل شده است. کاربر پرس‌وجویی را به زبان طبیعی بیان می‌کند. از کارهای مهم واحد پردازش پرس‌وجو، عملیات پردازش زبانی پرس‌وجو مانند نرمال‌سازی (به‌خصوص برای زبان فارسی) بسط پرس‌وجو و پرس‌وجوی بین‌زبانی (چندزبانی) است. از وظایف دیگر این واحد، انجام عملیاتی مانند پردازش عملیاتی پرس‌وجو (عملیاتی منطقی)، مدل کردن کاربر و نیز اعمال بازخورد خواهد بود. بعد از پردازش پرس‌وجو و به دست آوردن نتایج مرتبط از واحد نمایه‌ساز، عمل رتبه‌بندی با استفاده از اطلاعات تهیه‌شده توسط واحد نمایه‌ساز، گراف تهیه‌شده توسط خزشگر و مدل کاربر و بازخورد انجام می‌شود.

No tags for this post.

sinaadmin1393-11-15

نوشته های مشابه

دیدگاهتان را بنویسید لغو پاسخ