رونمایی از نسخه چهارم موتور جستجوگر بومي «پارسي جو»
سيناپرس: موتورهای جستجو امکانات ویژهای برای جستجوی عکس، فیلم، فایلهای صوتی و اخبار دارند و به کاربر برای سازمانیافتهتر عمل کردن کمک میکنند. در حال حاضر تعداد زیادی سایت جستجوگر مانند، bing، Google، Yahoo و … داریم. هر کدام از آنها توسط برنامههای گردشگر به نام robot ،web crawler، spider مرتب در وب به دنبال صفحههای جدید یا تغییریافته میگردند و به محض پیدا کردن آنها، اطلاعات مورد نظر را در پایگاه دادهای Database خود، لیست میکنند تا در موقع لزوم و هنگام جستجو در اختیار کاربران قرار دهند.
تفاوت موتور جستجوگر بومي پارسیجو با سایر موتورهای بومی کشور در این است که اکثر موتورهای بومی فعلی از موتورهای جستجوی دیگر استفاده میکنند که به اصطلاح ابر موتور جستجو (متا سرچ انجین) نامیده می شود. بهعنوان مثال هنگام جستجو با این موتورها، ابتدا عملیات به موتور گوگل ارجاع داده شده و پس از دریافت نتایج و ترکیب آنها به کاربر ارائه میشود در حالی که موتور «پارسیجو» مانند موتور جستجوی گوگل، مستقل است و بخشهای مختلف آن اقدام به جمعآوری و ثبت دادهها میکنند.
دكتر سجاد ظريف زاده، مدیر فنی موتور جستجوگر بومي« پارسي جو» در گفتگو با خبرنگار سيناپرس با بيان اينكه یک تیم 40 نفره در دانشکده مهندسی برق و کامپیوتر دانشگاه یزد موفق به طراحي موتور جستجوی «پارسیجو» شده است، گفت: در حال حاضر موتور پارسیجو روی یک بستر توزیع شده ۳۰ سیستم اجرا شده و حدود ۲۰۰ میلیون صفحه فارسی (از ۵۰۰ میلیون سند) را نمایهسازی کرده است. همچنین این سامانه مجهز به پردازشگر و خطایاب فارسی هوشمند است.
استادیار مهندسی کامپیوتر دانشگاه یزد هدف از طراحی این موتور را ارائه سرویس جستجو و سرویسهای متنوع مورد نیاز مردم کشورمان عنوان كرد و ادامه داد: موتورهای جستجو در دنیا اهمیت ویژهای دارند. در تمامی کشورها موتورهای جستجو از نظر نرخ بازدید دارای رتبه اول هستند. طبق آمار ۸۰ درصد کاربران اینترنت برای اینکه به وبسایت مورد نظر خود دسترسی پیدا کنند از یکی از موتورهای جستجو موجود استفاده میکنند.
وی با اشاره به اینکه موتورهای جستجو بومی در بسیاری از کشورهای دنیا وجود دارند، افزود: کشورهای کره جنوبی ، روسیه، ژاپن و چین از جمله آنها هستند که با توجه به نیازهای مردم خود اقدام به طراحی این موتورهای جستجو کردهاند و اکثریت ترافیکها روی موتورهای بومی آنها قرار دارد. بهعنوان مثال تنها ۱۸ درصد از کاربران اینترنت کشور چین برای جستجوهایشان از موتور جستجوگر گوگل استفاده میکنند یا در کشور روسیه موتور جستجوی بومی این کشور به نام «یاندکس» ۷۰ درصد از ترافیک جستجو کشور را به خود اختصاص داده است. بنابراین با توجه به افزایش استفاده از اینترنت در کشور طی سالهای اخیر و لزوم بهرهمندی از موتورهای جستجو در رفع نیازهای کاربران وجود یک موتور جستجوی بومی در کشور بیش از پیش ضرورت دارد.
آغاز پروژه طراحی موتور جستجو بومی از سال ۸۷
وی یادآور شد: فاز مطالعاتی در زمینه موتورهای جستجو در سال 1380 شروع گردیده و همچنین فاز تحقیقاتی پروژه طراحی موتور جستجوی بومی از سال ۸۷ با نام «پارسیجو» در دانشکده مهندسی کامپیوتر دانشگاه یزد با حمایت پژوهشگاه ارتباطات و فناوریاطلاعات و دانشگاه یزد آغاز شد. سپس سال ۸۸ این موتور جستجوی بومی پیادهسازی شد که هماکنون نسخه چهارم آن با پوشش بیش از 250 میلیون صفحه و با بهره گیری از سرویس های متعدد نظیر خبر،آوا و نقشه در آدرس www. parsijoo. ir قابل دسترسي است.
استادیار مهندسی کامپیوتر دانشگاه یزد با بیان اینکه در این پروژه ۴ نفر عضو هيت علمي ، ۳ نفر دانشجوي دكتري، ۱۰ نفر فوق و ۲3 نفر ليسانس حضور دارند، خاطرنشان کرد: برای ادامه فعاليت موتور جستجو بومی بر اساس نقشه راه شرکت و اهداف مورد نظر در سالهای پیش رو نیاز به نیروی انسانی متخصص بیشتری می باشد.
اجزای اصلی موتورهای جستجوگر
دكتر ظريف زاده با بیان اینکه به صورت کلی یک موتور جستجو از سه قسمت اصلی تشکیل شده، تصریح کرد: جمعآوری اطلاعات یکی از قسمتهای اصلی موتور جستجو است یا این واحد که خزشگر نام دارد، گراف وب را پیمایش کرده و محتوای تمام صفحههای پیمایششده HTM/XML/DOC/PDF/PPT و…) را در یک مخزن بزرگ به صورت فشرده ذخیره میکند.
وی افزود: پیمایشگر دو هدف عمده تازهسازی و پوشش بالا را به دنبال دارد که با یکدیگر رابطه عکس دارند (با زیاد شدن تازگی اطلاعات پوشش کم میشود و بالعکس). بعد از اتمام عمل پیمایش علاوه بر داشتن تمام اسناد موجود در وب، گراف وب ارتباط بین صفحهها را نشان میدهد. در حال حاضر الگوریتمهای مختلفی برای خزش وب ارائه شده است.
استاد دانشگاه یزد، نمایه یا ذخیرهسازی را قسمت دیگر موتور جستجو نام برد و افزود: این واحد اسناد ذخیرهشده در مخزن را پردازش کرده و نمایهسازی میکند. با توجه به حجم وسیع اطلاعات بهمنظور بالا بردن سرعت دسترسی، معمولا عمل نمایهسازی به صورت معکوس [BYRN۹۹] انجام میگیرد. محتوای اطلاعاتی اسناد باید طوری ذخیره شوند که با توجه به درخواست کاربر به راحتی قابلبازیابی باشند. برای ذخیرهسازی اطلاعات در سطح انتزاعی سه روش مجموعهای (بولی و فازی)، جبری (برداری و شبکههای عصبی) و احتمالی [RW۹۴] وجود دارند که در حال حاضر روش احتمالی بهترین جواب را ارائه داده است.
البته عملیاتی مانند خوشهیابی و دستهبندی وب در اینجا انجام میشود. همچنین به دلیل حجم بالای اطلاعات و تعداد درخواستهای زیاد، لازم است از سیستمهای موازی و توزیعشده در اینجا بهره برد.
وی با بیان اینکه موتور بازیابی قسمت دیگر موتورهای جستجو است، ادامه داد: موتور بازیابی، رابطه مستقیمی با بخش نمایهسازی و کاربران دارد. وظیفه اصلی این بخش پردازش پرسوجو و رتبهبندی جوابهاست و از دو واحد پردازش پرسوجو و رتبهبندی تشکیل شده است. کاربر پرسوجویی را به زبان طبیعی بیان میکند. از کارهای مهم واحد پردازش پرسوجو، عملیات پردازش زبانی پرسوجو مانند نرمالسازی (بهخصوص برای زبان فارسی) بسط پرسوجو و پرسوجوی بینزبانی (چندزبانی) است. از وظایف دیگر این واحد، انجام عملیاتی مانند پردازش عملیاتی پرسوجو (عملیاتی منطقی)، مدل کردن کاربر و نیز اعمال بازخورد خواهد بود. بعد از پردازش پرسوجو و به دست آوردن نتایج مرتبط از واحد نمایهساز، عمل رتبهبندی با استفاده از اطلاعات تهیهشده توسط واحد نمایهساز، گراف تهیهشده توسط خزشگر و مدل کاربر و بازخورد انجام میشود.
No tags for this post.