تشخیص احساس از گفتار ممکن شد
در این راستا محققین ایرانی گام بلندی را با استفاده از نوعی سیستم تشخیصی برداشتهاند که نتایج آن در در ﻣﺠﻠﻪ "مهندسی برق و مهندسی کامپیوتر ایران" وابسته به پژوهشكده برق جهاد دانشگاهي منتشر شده است.
تشخیص و بازشناسي احساس از روي گفتار، كاربردهاي مختلفي در سیستمهای تعاملي انسان و ماشين دارد.بهطور مثال چنین فرایندی میتواند عملكرد سیستمهای تشخيص گفتار را بهبود بخشد. این فرایند همچنين در زمينه آموزش، بازیهای كامپيوتري، پزشكي، روانشناسي و خودروهاي هوشمند كاربردهاي متنوعي دارد.
به گفته دانشمندان، اغلب ویژگیهایی كه براي بازشناسي احساس از روي گفتار به كار گرفته میشوند، میتوانند در دو گروه «ویژگیهای عروضي» و «ویژگیهای طيفي» دستهبندی شوند. ویژگیهای عروضي، بيشتر با لحن و ريتم گفتار در ارتباط هستند. اين ویژگیها معمولاً از مشخصات آماري مربوط به منحنیهای فركانس گام و انرژي صدا محاسبه میشوند و با دربرداشتن اطلاعات مهم احساسي، پركاربردترين ویژگیهای اين حوزه به شمار میآیند. ولی ویژگیهای طيفي كه از طيف سيگنال به دست میآیند در سالهای اخير جايگاه ویژهای پيدا کردهاند. اين ویژگیها بهعنوان مكمل ویژگیهای عروضي نقش به سزايي در افزايش راندمان تشخيص احساس از روي گفتار داشتهاند.
تشخیص و بازشناسي احساس از روي گفتار، كاربردهاي مختلفي در سیستمهای تعاملي انسان و ماشين دارد، بهطور مثال چنین فرایندی میتواند عملكرد سیستمهای تشخيص گفتار را بهبود بخشد.
به تازگی محققینی از دانشگاه آزاد اسلامی واحد شاهرود، دانشگاه صنعتی شاهرود و دانشگاه سمنان، پژوهشی را به انجام رساندهاند که در آن سعی شده با استفاده از ویژگیهای ديناميكي سیگنال صوتی صدای افراد بهعنوان مکملی برای ویژگیهای عروضی و طیفی، سیستمی طراحی شود تا بتواند احساسهای عصبانيت، خوشحالي و همچنين خستگي را از احساس عادي افراد مجزا نموده و تشخیص دهد.
بدین منظور، محققین صداهای استخراجشده از زنان و مردان مختلف را با صداهای موجود در پايگاه داده احساسي آلماني برلين، مورد مقایسه علمی قرار دادهاند. این پایگاه داده، شامل 535 جمله با 10 محتواي مختلف است كه توسط 10گوينده ( 5 زن و 5 مرد) در 7 احساس مختلف بيان شدهاند. پايگاه دادهای فوق، بهصورت رايگان از طريق اينترنت در اختيار عموم قرار دارد.
نتايج این مطالعه نشان داد که متوسط نرخ تشخيص احساس افراد در این سیستم، برای زنان بیشتر از مردان بوده است. به گفته محققین، سیستم فوق توانست حدود 96 درصد از موارد مربوط به احساسات زنان و 87 درصد از احساسات مردان را بهدرستی تشخیص دهد.
به گفته محققین فوق، نرخ تشخيص بيشتر زنان نسبت به مردان، به دليل ادراك و بروز بيشتر احساسات توسط زنان در گفتار معمول خود است. بااینحال، طبق نتایج حاصله، با در نظر گرفتن 301 جمله زنان و 234 جمله مردان، متوسط نرخ تشخيص کلی افراد، حدود 92 درصد ارزیابی شد.
حریمی و همکاران با اشاره به نتایج بهدستآمده از پژوهش خود گفتهاند: بر اساس نتايج آزمایشهای ما، ویژگیهای ديناميكي غیرخطی مربوط به صدا، حاوي اطلاعات مهمي از سطح جاذبه گفتار هستند.
به گفته این محققین، نتايج قابل توجهی از اين مقاله علمی قابل استحصال است: اول اینکه سیستم تشخیصی فوق که اصطلاحا «منحنی فضاي فاز بازسازیشده» نام دارد، ارتباط مهمي با احساس گفتار دارد، لذا به نظر میرسد این منحني، منبع خوبي براي استخراج ویژگیهای مرتبط با احساس افراد باشد. دوم اینکه ویژگیهای متداول عروضي و طيفي صدا براي جداسازي احساسها بر اساس «سطح برانگيختگي» مناسب آن کاربرد دارند. حالآنکه اين ویژگیها براي جداسازي احساسهای با سطح برانگيختگي يكسان از كارايي لازم برخوردار نيستند. و بالاخره سوم اینکه، ویژگیهای مستخرج از منحنیهای مورداشاره، براي طبقهبندی احساسهای عصبانيت، خوشحالي، خستگي و عادي كارآمد هستند.
گفتنی است نتایج این تحقیق در ﻣﺠﻠﻪ "مهندسی برق و مهندسی کامپیوتر ایران" وابسته به پژوهشكده برق جهاد دانشگاهي منتشر شده است.
گزارش: محمدرضا دلفیه
منبع: حریمی، ع. و همکاران. 1396. تشخيص احساس از روي گفتار با استفاده از طبقه بند مبتني بر مدل و ويژگي هاي ديناميكي غير خطي. مهندسی برق و مهندسی کامپیوتر ایران، 15(56): 10-1.
No tags for this post.