طراحی سیستم تشخیص گفتاری که به اندازه انسان دقیق است
محققان "مایکروسافت" طی 25 سال در ساختن این سیستم یک نقطه عطف ایجاد کردهاند. سیستم تشخیص گفتار و مکالمه این شرکت در نهایت به میزان اشتباه تنها 5.1 درصد رسید و این اولین بار است که چنین سیستمی با این دقت حرفهای انسانی همراه شده است.
یک سال پیش، گروه تحقیق گفتار و گفتمان "مایکروسافت" سیستم خود را برای رسیدن به میزان خطای کلمهای 5.9 درصد بهبود بخشید.این به طور کلی به عنوان میانگین خطای انسانی در نظر گرفته میشود، اما تحقیقات بیشتر محققان نشان داد که 5.1 درصد خطا، به درصد واقعی خطای شنیداری انسانی نزدیکتر است.
برای بیش از 20 سال، مجموعهای از مکالمات تلفنی ضبط شده به نام "Switchboard" مورد استفاده قرار گرفته است تا سیستم تشخیص گفتار برای دقتسنجی تست شودبرای کاهش حدود 12 درصدی میزان خطای سیستم نسبت به نتایج سال گذشته، این گروه تعدادی پیشرفت را در مدلهای صوتی و زبانی مبتنی بر شبکه عصبی سیستم انجام داد.
در کنار ارتقای کلی تمام اجزای سیستم، میزان مدل واژگان سیستم از حدود 30 هزار کلمه به 165 هزار کلمه افزایش یافت.
مهمتر از همه، محققان آنچه را که "حافظه طولانی مدت و کوتاه مدت مبتنی بر محاوره" نامیدهاند، تعویض کردند. به عبارت ساده، به این معناست که مدل جدید زبان به سیستم اجازه میدهد تا از کل مکالمات پیشین به عنوان سابقه در هنگام تلاش برای شناسایی دقیق عبارات خاص استفاده کند.
برای مثال، این امر به سیستم اجازه میدهد تا در صورت صحبت کردن در مورد ورزش، آن را به راحتی تشخیص دهد و خود را برای ترجمه و شناسایی عبارات تخصصی در مکالمات در حال انجام آماده کند.
این تیم یادآور میشود که در زمینه شناسایی گفتار هنوز کارهای زیادی برای انجام هست؛ چرا که این سیستم طراحیشده هنوز کارهای پیچیده مانند تشخیص گفتار در محیطهای شلوغ و پر سر و صدا یا رمزگشایی سخنان با لهجههای غلیظ و مختلف را شامل نمیشود.
"ژیدونگ هوانگ"، تکنسین "مایکروسافت" مینویسد: علاوه بر این، ما باید کارهای زیادی را در آموزش کامپیوترها انجام دهیم که فقط گفتوگو را رونویسی نکنند، بلکه معنا و محتوای آنها را نیز درک کنند. حرکت از تشخیص گفتار به سمت درک گفتار، گام مهم بعدی برای فناوری تشخیص گفتار است.
سیستمهای تشخیص گفتار "مایکروسافت" در حال حاضر در سرویسهایی مانند "Cortana" و "Speech Translator" استفاده میشود.
No tags for this post.