[ad_1]

پست وبلاگ این شرکت با شور و شوق تبلیغات دهه 90 در ایالات متحده در حال قطره است. آزمایشگاه WellSaid آنچه مشتری می تواند از “هشت صداپیشه دیجیتال جدید خود” انتظار داشته باشد را توصیف می کند. توبین “با انرژی و بصیرت” است. پیج “متعادل و رسا” است. آوا “جلا ، اعتماد به نفس و حرفه ای” است.

هر یک از آنها براساس صداپیشه واقعی ساخته شده است که شباهت او (با رضایت) با کمک هوش مصنوعی حفظ می شود. اکنون شرکت ها می توانند به این آرا مجوز دهند تا آنچه را که لازم دارند بیان کنند. آنها به سادگی مقداری متن را وارد سازوکار صوتی می کنند و یک کلیپ صوتی تازه و با صدای طبیعی تولید می کنند.

آزمایشگاه WellSaid ، استارتاپ مستقر در سیاتل که از سازمان غیرانتفاعی پژوهشگاه آلن موسسه هوش مصنوعی ظهور کرد ، جدیدترین شرکتی است که آرای مشتری AI را ارائه می دهد. تا کنون ، او متخصص بازیگران فیلم های یادگیری الکترونیکی شرکتی است. سایر استارت آپ ها به دستیاران دیجیتال ، اپراتورهای مرکز تماس و حتی شخصیت های بازی ویدیویی رأی می دهند.

چندی پیش ، چنین صداهای دروغین عمیقی شهرت بدی داشتند که در مکالمات متقلبانه و کلاهبرداری های آنلاین مورد استفاده قرار می گرفتند. اما از آن زمان ، بهبود کیفیت آنها باعث جلب توجه تعداد فزاینده ای از شرکت ها شده است. پیشرفت های اخیر در یادگیری عمیق امکان تولید بسیاری از ظرافت های گفتار بشر را فراهم کرده است. این صداها در همه مکان های مناسب متوقف شده و نفس می کشند. آنها می توانند سبک یا احساس خود را تغییر دهند. اگر این صحبت طولانی مدت باشد ممکن است متوجه این ترفند شوید ، اما در کلیپ های صوتی کوتاه برخی از آنها قابل تشخیص نیستند.

آرای هوش مصنوعی نیز ارزان ، مقیاس پذیر و استفاده از آن آسان است. برخلاف ضبط یک بازیگر با صدای انسانی ، صداهای مصنوعی همچنین می توانند فیلم نامه خود را در زمان واقعی به روز کنند و امکانات جدیدی را برای شخصی سازی تبلیغات ایجاد کنند.

اما افزایش صداهای کاذب واقع بینانه بی نتیجه نیست. به ویژه ، بازیگرانی که صدای انسانی دارند ، جای تعجب دارند که معنای این امر برای امرار معاش آنها چیست.

چگونه یک صدا جعل کنیم

صداهای مصنوعی مدتی است که وجود دارد. اما موارد قدیمی ، از جمله صدای Siri و Alexa اصلی ، فقط کلمات و اصوات را به هم چسبانده اند تا به یک اثر دست و پاگیر و رباتیک دست یابند. طبیعی تر به نظر رسیدن آنها یک کار دستی دشوار بود.

یادگیری عمیق آن را تغییر داد. توسعه دهندگان صدا دیگر نیازی به تعیین دقیق سرعت ، تلفظ یا صدای گفتار تولید شده ندارند. در عوض ، آنها می توانند چند ساعت صدا را در یک الگوریتم تغذیه کنند و الگوریتم را به خود بیاموزند تا این الگوها را یاد بگیرد.

“اگر من پیتزا هات باشم ، مطمئناً نمی توانم شبیه دومینو باشم و مطمئناً نمی توانم مانند پاپا جان صدا کنم.”

روپال پاتل ، بنیانگذار و مدیر عامل شرکت VocaliD

در طول سال ها ، محققان از این ایده اساسی برای ساخت موتورهای صوتی استفاده می کنند که به طور فزاینده ای پیچیده تر می شوند. به عنوان مثال ، آزمایشگاه WellSaid از دو مدل اساسی برای یادگیری عمیق استفاده می کند. اولین مورد از متن متن حرکات وسیع نحوه به صدا در آمدن بلندگو – از جمله لهجه ، صدا و صدای لحن را پیش بینی می کند. مورد دوم جزئیات را شامل می شود ، از جمله تنفس و نحوه طنین صدا با محیط اطراف.

با این وجود ساختن صدای مصنوعی متقاعد کننده به موارد دیگری بیش از فشار یک دکمه نیاز دارد. بخشی از آنچه صدای انسان را بسیار انسانی می کند ، ناسازگاری ، رسا بودن و توانایی آن در ارائه نشانه های مشابه در سبک های کاملاً متفاوت ، بسته به زمینه است.

گرفتن این تفاوت های ظریف شامل یافتن صداپیشه های مناسب برای ارائه داده های آموزش صحیح و اصلاح مدل های یادگیری عمیق است. WellSaid می گوید این فرایند برای تولید یک ماکت مصنوعی با صدای واقعی به حداقل یک یا دو ساعت کار صوتی و چند هفته کار نیاز دارد.

صداهای هوش مصنوعی به ویژه در بین مارک هایی که تلاش می کنند صدای سازگار را در میلیون ها تعامل مشتری حفظ کنند ، محبوب شده اند. با گسترش اسپیکرهای هوشمند امروزی و ظهور عوامل خدمات مشتری به صورت خودکار و همچنین دستیارهای دیجیتال داخلی در ماشین ها و دستگاه های هوشمند ، مارک ها ممکن است بیش از صد ساعت صدا در ماه تولید کنند. اما آنها همچنین دیگر نمی خواهند از صدای متداول ارائه شده توسط فن آوری متنی به گفتار سنتی استفاده كنند ، این روندی است كه در طی همه گیر شدن سرعت می گیرد زیرا بیشتر مشتری ها از تعاملات فروشگاه برای انجام عمل استفاده می كنند.

روپال پاتل ، استاد دانشگاه شمال شرقی و بنیانگذار و مدیرعامل VocaliD ، که قول می دهد شخصی سازی کند صداهایی که با هویت برند شرکت مطابقت دارند. “این مارک ها به رنگ خود فکر کرده اند. آنها به فونت های خود فکر کردند. حالا آنها باید درباره نحوه صدا دادن خود فکر کنند. “

در حالی که شرکت ها مجبور بودند صداپیشگان مختلفی را برای بازارهای مختلف استخدام کنند – در شمال شرقی در مقابل جنوب ایالات متحده یا فرانسه در برابر مکزیک ، برخی از شرکت های صدای AI می توانند لهجه را دستکاری کنند یا زبان یک صدا را به روش های مختلف تغییر دهند. این بستگی به این دارد که چه کسی در حال گوش دادن است ، امکان انطباق تبلیغات در سیستم عامل های جریان را فراهم می کند ، نه تنها ویژگی های صدا ، بلکه کلماتی که گفته می شود نیز تغییر می کند. یک تبلیغ آبجو می تواند به شنونده بگوید که در یک میخانه دیگر متوقف شود ، بسته به اینکه مثلاً در نیویورک بازی می کند یا تورنتو. Resemble.ai ، که تبلیغات صوتی و دستیارهای هوشمند را طراحی می کند ، می گوید در حال حاضر با مشتریان در حال کار است تا چنین تبلیغات صوتی سفارشی را در Spotify و Pandora اجرا کند.

صنعت بازی و سرگرمی نیز مزایای آن را می بیند. Sonantic ، یک شرکت متخصص در صداهای احساسی است که می تواند بخندد و گریه کند ، یا زمزمه کند و فریاد بزند ، با سازندگان بازی های ویدیویی و استودیوهای انیمیشن همکاری می کند تا صدای شخصیت های آنها را فراهم کند. بسیاری از مشتریان او از صدای تلفیقی فقط در پیش تولید استفاده می کنند و برای تولید نهایی به صداپیشگان واقعی روی می آورند. اما Sonantic می گوید تعداد کمی از آنها شروع به استفاده از آنها کرده اند ، شاید برای شخصیت های با خطوط کمتر. Resemble.ai و دیگران همچنین با فیلم ها و نمایش های تلویزیونی کار کرده اند تا تصور بازیگران را هنگام اشتباه گرفتن یا تلفظ اشتباه کلمات تصحیح کنند.

[ad_2]

منبع: unbox-khabar.ir

ایندکسر