آموزش و ترفند

VALL-E هوش مصنوعی تبدیل متن به گفتار مایکروسافت

فناوری های هوش مصنوعی با سرعتی باورنکردنی در حال توسعه هستند. همانطور که مدل های هوش مصنوعی می توانند از کلمات شما تصاویر بسازند و با شما گفتگو کنند اکنون مایکروسافت VALL-E را توسعه داده است. هوش مصنوعی که می تواند هر صدایی را که می شنود تنها در سه ثانیه تقلید کند. برخلاف بسیاری از ابزارهای هوش مصنوعی، VALL-E می تواند احساسات و لحن گوینده را نیز تکرار کند.

VALL-E ابزار هوش مصنوعی که می تواند هر صدایی را تکرار کند

مایکروسافت از یک مدل جدید هوش مصنوعی تبدیل متن به گفتار به نام VALL-E رونمایی کرده است که می تواند صدای هرکسی را تنها با یک کلیپ صوتی سه ثانیه ای، صحبت کردن آن ها را به طور دقیق شبیه سازی کند. همانطور که توسط Ars Technica گزارش شده است محققان، این غول نرم افزاری را در یک مقاله تحقیقاتی جدید نسخه ی نمایشی GitHub نشان داده اند. اگرچه VALL-E هنوز در مراحل ابتدایی خود است اما با عملکردی که از خود نشان داده جامعه علمی را تحت تأثیر قرار داده است.

VALL-E ابزار هوش مصنوعی

سازندگان VALL-E براین باورند که مدل جدید هوش مصنوعی آن ها روزی می تواند در نرم افزار تبدیل متن به گفتار برای ویرایش فایل های ضبط شده از قبل و حتی برای ایجاد صدای جدید در صورت استفاده در کنار سایر مدل های هوش مصنوعی مانند GPT-3 استفاده شود. به گفته مایکروسافت VALL-E یک زبان مبتنی بر شبکه عصبی است که از فناوری متا به نام EnCodec ساخته شده که در اکتبر سال گذشته میلادی معرفی شد. برای آموزش مدل جدید هوش مصنوعی محققان این شرکت از یک کتابخانه صوتی متا به نام Libri-light استفاده کردند که این کتابخانه از 60000 ساعت سخنرانی انگلیسی از بیش 7000 سخنران تشکیل شده است.

VALL-E زبان مبتنی بر شبکه عصبی

نکته جالب دیگر در مورد VALL-E این است که می تواند از محیط صوتی کلیپ های سه ثانیه ای که برای جعل صدای افراد استفاده می شود تقلید کند. این بدان معناست که اگر بلندگوی اصلی در ماشین آن ها قرار داشته باشد یا در حال تماس تلفنی باشند مدل هوش مصنوعی صدایی با همان ویژگی های صوتی تولید می کند.

معایب احتمالی VALL-E

با این حال نگرانی هایی در مورد پیامدهای اخلاقی این فناوری وجود دارد. با قدرتمندتر شدن هوش مصنوعی صداهای تولید شده توسط VALL-E و فناوری های مشابه قانع کننده تر می شوند که می تواند دری را به روی تماس های جعلی باز کند به این دلیل که می تواند صداهای سیاستمداران و سایر شخصیت های عمومی را جعل کند که منجر به انتشار اطلاعات نادرست در رسانه های اجتماعی شود.

معایب احتمالی VALL-E

همچنین نگرانی های امنیتی نیز وجود دارد. برخی بانک ها از فناوری تشخیص صدا برای تأیید هویت تماس گیرنده استفاده می کنند اما اگر صداهای تولید شده توسط هوش مصنوعی قانع کننده تر شود تشخیص اینکه آیا تماس گیرنده از صدای VALL-E استفاده می کند یا نه دشوارتر می شود. علاوه براین، این فناوری ممکن است بر صداپیشگان نیز تأثیر بگذارد زیرا اگر صداهای تولید شده توسط هوش مصنوعی واقعی تر شوند ممکن است دیگر به خدمات صداپیشگان نیازی نباشد.

علیرضا باقری

نوشته های اخیر

5 شغل هوش مصنوعی برای کسانی که از کدنویسی فراری‌ اند

استخدام در حوزه هوش مصنوعی با تمام قوا در حال پیشرفت است. بر اساس گزارش…

23 ساعت قبل

«مربی دوربین» گوگل پیکسل ۱۰: هوش مصنوعی به شما کمک می‌کند بهترین عکس‌ها را بگیرید

با عرضه پیکسل ۱۰، توجه‌ها بار دیگر به دوربین‌های این گوشی جلب شده است که…

2 هفته قبل

سرور DL380 G11 برای چه کاربردهایی مناسب است؟ از مجازی‌سازی تا پردازش سنگین

سرور DL380 G11 برای چه کاربردهایی مناسب است؟ از مجازی‌سازی تا پردازش سنگین سرور HP…

3 هفته قبل

آوافون؛ فراتر از یک فروشگاه موبایل، تجربه‌ای نو از خرید مطمئن و حرفه‌ای

در دنیایی که تکنولوژی هر روز یک قدم جلوتر می‌رود، انتخاب و خرید یک گوشی…

4 هفته قبل

بررسی امکانات و قابلیت های اپلیکیشن آهنگ پیشواز

اپلیکیشن آهنگ پیشواز به شما این امکان را می دهد که بدون جستجو در سایت…

4 هفته قبل

راهنمای خرید هارد SSD: انتخاب بهترین گزینه برای سیستم شما

در دنیای پرسرعت فناوری امروز، هاردهای SSD (Solid State Drive) به دلیل سرعت بالا، عملکرد…

4 هفته قبل