تشخیص احساس از گفتار ممکن شد

در این راستا محققین ایرانی گام بلندی را با استفاده از نوعی سیستم تشخیصی برداشتهاند که نتایج آن در در ﻣﺠﻠﻪ "مهندسی برق و مهندسی کامپیوتر ایران" وابسته به پژوهشکده برق جهاد دانشگاهی منتشر شده است.
تشخیص و بازشناسی احساس از روی گفتار، کاربردهای مختلفی در سیستمهای تعاملی انسان و ماشین دارد.بهطور مثال چنین فرایندی میتواند عملکرد سیستمهای تشخیص گفتار را بهبود بخشد. این فرایند همچنین در زمینه آموزش، بازیهای کامپیوتری، پزشکی، روانشناسی و خودروهای هوشمند کاربردهای متنوعی دارد.
به گفته دانشمندان، اغلب ویژگیهایی که برای بازشناسی احساس از روی گفتار به کار گرفته میشوند، میتوانند در دو گروه «ویژگیهای عروضی» و «ویژگیهای طیفی» دستهبندی شوند. ویژگیهای عروضی، بیشتر با لحن و ریتم گفتار در ارتباط هستند. این ویژگیها معمولاً از مشخصات آماری مربوط به منحنیهای فرکانس گام و انرژی صدا محاسبه میشوند و با دربرداشتن اطلاعات مهم احساسی، پرکاربردترین ویژگیهای این حوزه به شمار میآیند. ولی ویژگیهای طیفی که از طیف سیگنال به دست میآیند در سالهای اخیر جایگاه ویژهای پیدا کردهاند. این ویژگیها بهعنوان مکمل ویژگیهای عروضی نقش به سزایی در افزایش راندمان تشخیص احساس از روی گفتار داشتهاند.
تشخیص و بازشناسی احساس از روی گفتار، کاربردهای مختلفی در سیستمهای تعاملی انسان و ماشین دارد، بهطور مثال چنین فرایندی میتواند عملکرد سیستمهای تشخیص گفتار را بهبود بخشد.
به تازگی محققینی از دانشگاه آزاد اسلامی واحد شاهرود، دانشگاه صنعتی شاهرود و دانشگاه سمنان، پژوهشی را به انجام رساندهاند که در آن سعی شده با استفاده از ویژگیهای دینامیکی سیگنال صوتی صدای افراد بهعنوان مکملی برای ویژگیهای عروضی و طیفی، سیستمی طراحی شود تا بتواند احساسهای عصبانیت، خوشحالی و همچنین خستگی را از احساس عادی افراد مجزا نموده و تشخیص دهد.
بدین منظور، محققین صداهای استخراجشده از زنان و مردان مختلف را با صداهای موجود در پایگاه داده احساسی آلمانی برلین، مورد مقایسه علمی قرار دادهاند. این پایگاه داده، شامل 535 جمله با 10 محتوای مختلف است که توسط 10گوینده ( 5 زن و 5 مرد) در 7 احساس مختلف بیان شدهاند. پایگاه دادهای فوق، بهصورت رایگان از طریق اینترنت در اختیار عموم قرار دارد.
نتایج این مطالعه نشان داد که متوسط نرخ تشخیص احساس افراد در این سیستم، برای زنان بیشتر از مردان بوده است. به گفته محققین، سیستم فوق توانست حدود 96 درصد از موارد مربوط به احساسات زنان و 87 درصد از احساسات مردان را بهدرستی تشخیص دهد.
به گفته محققین فوق، نرخ تشخیص بیشتر زنان نسبت به مردان، به دلیل ادراک و بروز بیشتر احساسات توسط زنان در گفتار معمول خود است. بااینحال، طبق نتایج حاصله، با در نظر گرفتن 301 جمله زنان و 234 جمله مردان، متوسط نرخ تشخیص کلی افراد، حدود 92 درصد ارزیابی شد.
حریمی و همکاران با اشاره به نتایج بهدستآمده از پژوهش خود گفتهاند: بر اساس نتایج آزمایشهای ما، ویژگیهای دینامیکی غیرخطی مربوط به صدا، حاوی اطلاعات مهمی از سطح جاذبه گفتار هستند.
به گفته این محققین، نتایج قابل توجهی از این مقاله علمی قابل استحصال است: اول اینکه سیستم تشخیصی فوق که اصطلاحا «منحنی فضای فاز بازسازیشده» نام دارد، ارتباط مهمی با احساس گفتار دارد، لذا به نظر میرسد این منحنی، منبع خوبی برای استخراج ویژگیهای مرتبط با احساس افراد باشد. دوم اینکه ویژگیهای متداول عروضی و طیفی صدا برای جداسازی احساسها بر اساس «سطح برانگیختگی» مناسب آن کاربرد دارند. حالآنکه این ویژگیها برای جداسازی احساسهای با سطح برانگیختگی یکسان از کارایی لازم برخوردار نیستند. و بالاخره سوم اینکه، ویژگیهای مستخرج از منحنیهای مورداشاره، برای طبقهبندی احساسهای عصبانیت، خوشحالی، خستگی و عادی کارآمد هستند.
گفتنی است نتایج این تحقیق در ﻣﺠﻠﻪ "مهندسی برق و مهندسی کامپیوتر ایران" وابسته به پژوهشکده برق جهاد دانشگاهی منتشر شده است.
گزارش: محمدرضا دلفیه
منبع: حریمی، ع. و همکاران. 1396. تشخیص احساس از روی گفتار با استفاده از طبقه بند مبتنی بر مدل و ویژگی های دینامیکی غیر خطی. مهندسی برق و مهندسی کامپیوتر ایران، 15(56): 10-1.