توسط هوش مصنوعی؛
حرف ها و متن هایی که به سخنرانی تبدیل می شود

sinaadmin۱۴۰۲-۰۴-۰۳

از دستیارهای مجازی گرفته تا صداپیشگان برای کتاب‌های صوتی، تولید صدای هوش مصنوعی به‌عنوان حوزه‌ای به‌سرعت در حال رشد ظاهر شده است و جای تعجب نیست که شرکت‌ها برای بهره‌گیری از پتانسیل این فناوری عجله دارند. از جمله آنها شرکت Voicemod مستقر در والنسیا است.

به گزارش سیناپرس، این استارت‌آپ یک نرم‌افزار تغییر صدا و بورد صدا با هوش مصنوعی توسعه داده است که تبدیل فوری متن به گفتار و گفتار به گفتار با صدای متفاوت را امکان ‌پذیر می‌کند. برخلاف اکثر رقبای خود، این شرکت ادعا می کند که صداها را در زمان واقعی و با تأخیر کم تغییر می دهد و کاربران را قادر می سازد همانطور که در زندگی واقعی صحبت می کنند، به صحبت کردن با این پلتفرم بپردازند.

به گفته جیمی بوش، مدیر عامل و یکی از بنیانگذاران Voicemod، این شرکت مدل هوش مصنوعی خود را با استفاده از مجموعه داده‌های در دسترس عموم و صداپیشگان حرفه‌ای آموزش می‌دهد که منجر به مجموعه وسیعی از عبارات صوتی، زیر و بم، آهنگ‌ها و احساسات می‌شود. از طریق تکنیک‌های یادگیری ماشینی، مدل یاد می‌گیرد که الگوهای گفتار و پیچیدگی‌های فرد را درک، تجزیه و تحلیل و پیش‌بینی کند.

به گزارش سیناپرس، بوش میگوید: زمانی که کاربر در نرم افزار یا برنامه ما صحبت می کند، ورودی صوتی او در زمان واقعی پردازش می شود. سپس مدل هوش مصنوعی ما الگوها و دگرگونی های آموخته شده را در ورودی اعمال می کند و امکان تبدیل فوری صدا را فراهم می کند.

Voicemod عمدتاً صنعت سرگرمی از جمله گیمرها، استریمرها، سازندگان محتوا و یوتوبرها را در پلتفرم‌های مختلف از دیسکورد و تی سوییچ گرفته تا یوتوب و اینستاگرام هدف قرار می‌دهد.

برای رسیدگی بیشتر به تقاضای فزاینده کاربران برای تبدیل حرف هایشان به صدای هوش مصنوعی، این مجموعه در کنار 100 گزینه صوتی موجود در مجموعه خود، اکنون مجموعه موسوم به “انسان AI” را راه اندازی می کند. اگرچه Voicemod قبلاً فیلترهای صدای انسان را ارائه می داد، اما مجموعه جدید قرار است واقعی ترین مجموعه انسانی تا به امروز باشد.

AI Humans که روی ضبط صدا از بازیگران آموزش دیده است، شامل 20 آواتار صوتی است که از نظر شخصیت، جنسیت و سن متفاوت اند. شخصیت‌ها عبارتند از جو، یک صدای مرد 80 ساله با لحن خشن و طعنه‌آمیز و جنیفر، صدای زن 25 ساله، با شخصیتی «پر انرژی و دوستانه». کاربران همچنین می توانند زیر و بم هر شخصیت را سفارشی کنند و درک جنسیت و سن صدا را تغییر دهند.

بوش گفت: صدای هوش مصنوعی فرصت‌های هیجان‌انگیزی را برای صنایعی که به دنبال پرورش اکتشاف خلاق و ابراز وجود، افزایش شخصی‌سازی، و تقویت فراگیری در فضاهای دیجیتال هستند، ارائه می‌کند.

اما علیرغم تأثیر مثبتی که تولید صدای هوش مصنوعی می تواند داشته باشد، این فناوری با خطرات متعددی نیز همراه است. برخی از آنها عبارتند از سوء استفاده، کلاهبرداری، جعل هویت و حتی سرقت صدا که به ویژه صداپیشگان حرفه ای را تحت تاثیر قرار می دهد.

به گفته بوش، Voicemod فعالانه در تلاش است تا این خطرات را کاهش دهد. برای مثال، در حال توسعه یک فناوری واترمارک برای کمک به پلتفرم‌ها برای شناسایی و ردیابی صداهای تولید شده توسط هوش مصنوعی است، در حالی که اقداماتی را برای محافظت از مالکیت معنوی صداپیشگانی که با آنها کار می‌کند، اجرا کرده است.

بوش معتقد است که هوش مصنوعی برای حرفه ای ها به یک ابزار تبدیل خواهد شد. وی می گوید: چیزی که شاید در این بحث‌ها نادیده گرفته شود این است که در پس هر استفاده از هوش مصنوعی صوتی همزمان، موردی که Voicemod هدف قرار می‌دهد، انسانی است که به طور مؤثر هوش مصنوعی را هدایت می‌کند.

به گزارش سیناپرس،Voicemod که در حال حاضر بیش از 40 میلیون دانلود صفحه نمایشی دارد. در آینده قصد دارد روی موبایل نیز راه اندازی شود و به دست میلیون ها کاربر فعال برسد. همچنین در حال کار روی مشارکت B2B با شرکت های بازی و پلتفرم های هدست واقعیت مجازی است. این نرم افزار که به صورت رایگان در دسترس است، با گزینه ای نیز برای نسخه PRO پولی که ویژگی ها و محتوای اضافی را باز می کند، فعال می شود.

مترجم: مهگل غفاری

sinaadmin۱۴۰۲-۰۴-۰۳