شناسایی مشاوران خبره با الگوریتم‌ ریاضی

sinaadmin۱۳۹۷-۰۲-۱۷

مردم در طول زندگی خود با سؤالات متفاوتی مواجه می‌شوند و هرکسی سعی می‌کند پاسخ این سؤالات را به شیوه‌ای مناسب یافته و مسائلش را حل کند. لذا به‌طور طبیعی، به دنبال شخص خبره‌ای در آن حوزه می‌گردد تا بتواند سؤالش را مطرح نموده و تا آنجا که ممکن است، مسئله پیش‌آمده برای خود را حل کند. یکی از راه‌حل‌هایی که امروزه برای یافتن پاسخ سؤالات از آن استفاده می‌شود، به‌کارگیری گروه‌های آنلاین است که در آن‌ها می‌توان یک بحث جدید را ایجاد کرد و سؤالات مورد نظر را در تبادل با افراد خبره پرسید.

یکی از راه‌حل‌هایی که امروزه برای یافتن پاسخ سؤالات از آن استفاده می‌شود، به‌کارگیری گروه‌های آنلاین است که در آن‌ها می‌توان یک بحث جدید را ایجاد کرد و سؤالات مورد نظر را در تبادل با افراد خبره پرسید.

اما در اغلب موارد، پاسخ‌های متفاوت و گاهی حتی متناقضی به یک سؤال داده می‌شود. پس پیدا کردن یک جواب درست ممکن است امری چالش‌برانگیز باشد. با توجه به این موضوع، یافتن شخص یا اشخاصی که در مورد سؤال موردنظر، اطلاعات کافی داشته و اصطلاحاً خبره باشند، اهمیت زیادی در چنین گروه‌های آنلاینی دارد. فرایند شناسایی چنین کاربرانی که بالاترین سطح تخصص را در حوزه خاصی از دانش دارند، می‌تواند توسط الگوریتم‌های ریاضی خاص انجام شود.

در این خصوص، محققینی از دانشگاه صنعتی امیرکبیر در پژوهشی موشکافانه، به بررسی الگوریتم‌های مختلف و مقایسه عملکرد آن‌ها در پیدا کردن تعدادی متخصص در یک حوزه خاص پرداخته‌اند.

نوآوری این پژوهش، مقایسه ۶ الگوریتم اصلی بر روی مجموعه‌ای از داده‌های بزرگ است که شامل بیش از یک‌میلیون داده سؤال و جواب بوده و پیش‌پردازش آن‌ها، کاری سخت محسوب می‌شود.

بدین منظور، محققین دانشگاه امیرکبیر، از مجموعه داده‌های سایت اینترنتی Stack Overflow استفاده کردند که یک گروه بزرگ برای سؤال و جواب دسته‌ای است. آن‌ها، از رابط کاربری استخراج داده خود وب‌سایت استفاده کردند تا داده‌های موردنیاز را استخراج کنند.

به گفته محققین فوق،الگوریتم‌های زیادی برای یافتن افراد خبره در شبکه‌های اجتماعی وجود دارد که مشهورترین آن‌ها شامل PageRank، HITS، In-degree و Z-score هستند.

بهنام بزرگی، دانش‌آموخته دانشکده مهندسی کامپیوتر دانشگاه صنعتی امیرکبیر و از مجریان این پژوهش در این رابطه به خبرنگار سیناپرس گفت:« الگوریتم‌هایی که مطرح شدند، بیشتر، الگوریتم‌هایی هستند که در شبکه‌های اجتماعی از آن‌ها استفاده می‌شود. زمانی که شبکه اجتماعی را با استفاده از یال‌ها و گره‌ها ترسیم می‌کنیم، یک سری تعاریف برای گره‌ها ارائه می‌دهیم و روابط بین افراد را با یال‌ها و افراد را با گره‌ها ترسیم می‌کنیم. هر سناریویی هم قابل ترسیم است و بستگی به نوع نگاه شما به شبکه دارد. سناریویی که ما درنظر گرفتیم بدین‌صورت بود که گره‌ها افراد هستند و ارتباط آن‌ها و درواقع یال‌ها، پاسخ‌هایی هستند که به پرسش‌های افراد داده شده است».

این محقق افزود: «الگوریتم‌هایی که بررسی شده‌اند، میزان مهم بودن هر گره را بررسی می‌کنند. هرچقدر گره پاسخ‌دهنده اهمیت بیشتری داشته باشد، نشان‌دهنده این است که فرد، پاسخ‌های بیشتری به پرسش‌ها داده و درنتیجه ما می‌توانیم به‌عنوان یک فرد خبره، امتیازهایی را برای او در نظر بگیریم . بنابراین هرچقدر امتیاز فرد بیشتر باشد میزان خبرگی او بیشتر خواهد بود. درواقع کل مفهومی که این روش‌ها دارند، این است که برای گره‌ها در شبکه‌های اجتماعی، امتیازاتی را تعیین می‌کنند».

بزرگی تاکید کرد: «ما برای ارزیابی هر الگوریتم، ۵۰ کاربر برتر را با توجه به امتیازی که براساس هر الگوریتم در بازه زمانی و در هر قسمت کسب کرده بودند، مرتب کردیم. ما همچنین ۵۰ کاربر برتر را بر اساس امتیازاتی که با توجه به پاسخ‌های خود در سایت استک اورفلو دریافت کرده بودند، در بازه زمانی خاص و در یک قسمت خاص، مرتب کردیم. سپس ما کاربران برتر پیش‌بینی‌شده با الگوریتم را با کاربران برتر که از استک اورفلو استخراج کرده بودیم، مقایسه نموده و مشخص کردیم که چند کاربر معمولی در هر دسته ۵۰ تایی وجود دارد».

یافته‌های این تحقیق نشان می‌دهد الگوریتم Z-score با نسبت ۸۴ درصد، بهترین عملکرد را در بین الگوریتم‌ها به خود اختصاص داد.

همچنین بر اساس این نتایج، همه الگوریتم‌ها به‌جز الگوریتم PageRank نتایج تقریباً مشابهی داشتند، زیرا آن‌ها فقط بر روی پاسخ‌هایی که کاربر فراهم می‌کند، متمرکز هستند.

مجریان این پژوهش معتقدند: «سایت استک اورفلو، افراد را بر اساس امتیازاتی که گرفته‌اند مرتب می‌کند. این امتیازات از رأی مثبت دیگر کاربران به دست می‌آید و این رأی‌های مثبت، معمولاً از کیفیت جواب، معروفیت و بهترین جواب به انتخاب پرسش‌گر سؤال، به دست می‌آیند. به همین دلیل، PageRank بدترین عملکرد را در میان الگوریتم‌ها داشت».

این محققان می‌افزایند: «دلیل این‌که الگوریتم Z-score بهترین عملکرد را در بین ۳ الگوریتم باقی‌مانده داشت نیز این است که این الگوریتم، به خود سؤالی که توسط کاربر قرار داده می‌شود نیز توجه می‌کند و آن‌ها را به‌عنوان نشانه‌ای از کم بودن یا زیاد بودن دانش آن فرد درنظر می‌گیرد».

بزرگی در خصوص کاربردهای دیگر الگوریتم‌های مورد بررسی گفت: «این موضوع، بستگی به سناریو دارد. برای مثال وقتی‌که شما در اینترنت در حال چرخیدن بین چند وب‌سایت هستید و سایت‌ها را گره در نظر بگیرید و حرکت بین سایت‌ها را یال، حالا می‌توانید میزان مهم بودن هر گره و وب‌سایت را این‌گونه تعیین کنید که چه وب‌سایت‌هایی بیشتر دیده شده‌اند. سایت‌های گوگل و یاهو برای رتبه‌بندی سایت‌ها از چنین الگوریتم‌هایی استفاده می‌کنند. درواقع سایتی که بازدید بیشتری دارد را می‌توان به‌عنوان یک خبره و یا یک سایت با اهمیت بالا به شمار آورد. به‌عبارت‌دیگر، مفهوم و کارکرد کلی این الگوریتم‌ها، یافتن میزان اهمیت یک گره در یک شبکه است و لذا شما می‌توانید در موارد مختلف از آن‌ها استفاده کنید».

قابل‌ذکر است بنا بر نتایج حاصله از این تحقیق، نشان داده شد که عملکرد هر الگوریتم به سناریو و ساختار شبکه‌ای که در آن به کار گرفته شده بستگی دارد. بر این اساس، الگوریتم Z-Degree (از Z-score) بالاترین درصد یافتن خبره را داشت و بنابراین بهترین عملکرد را از خود نشان داد و به دنبال آن به ترتیب Z-Number، In-Degree، HITS و PageRank در مقام‌های بعدی قرار گرفتند.

بزرگی در خصوص برنامه‌های آینده و تحقیقات بسط دهنده پژوهش فعلی اظهار داشت: «در پژوهش آینده می‌توان به شکل دقیق‌تری پاسخ‌ها را محاسبه کرد. مثلاً متن پاسخ را در نظر گرفته و با استفاده از الگوریتم‌ها، خود محتوی را بررسی کرد و نه امتیازات افراد را. زیرا ممکن است فردی پاسخ‌های زیادی داده باشد، ولی پاسخ‌ها در حد افراد مبتدی باشد و به‌علاوه، خود سؤال هم ساده باشد. همچنین می‌توان برای سؤال، درجه پیچیدگی در نظر گرفت و به سؤالات سخت، رتبه بهتری داد. برای چنین موردی می‌توان استفاده از کلمات کلیدی را مثال زد. هرچند کلمات کلیدی تنها عامل مهم دراین‌باره نیستند. چراکه ممکن است پاسخ‌دهنده، تعدادی کلمه کلیدی را برای افزایش امتیاز، وارد پاسخ کرده باشد، ولی آن‌ها درواقع قسمتی از پاسخ نباشند. لذا باید برای ادامه کار پژوهشی، نکات زیادی را در نظر گرفت».

این نتایج کاربردی و مفید، به‌صورت مقاله‌ای انگلیسی در نشریه بین‌المللی Information Systems & Telecommunication، متعلق به پژوهشکده فناوری اطلاعات و ارتباطات جهاد دانشگاهی به چاپ رسیده است.

گزارش و گفتگو: دکتر محمدرضا دلفیه

منبع: Information Systems & Telecommunication

sinaadmin۱۳۹۷-۰۲-۱۷