VALL-E هوش مصنوعی تبدیل متن به گفتار مایکروسافت

دسترسی سریع

فناوری های هوش مصنوعی با سرعتی باورنکردنی در حال توسعه هستند. همانطور که مدل های هوش مصنوعی می توانند از کلمات شما تصاویر بسازند و با شما گفتگو کنند اکنون مایکروسافت VALL-E را توسعه داده است. هوش مصنوعی که می تواند هر صدایی را که می شنود تنها در سه ثانیه تقلید کند. برخلاف بسیاری از ابزارهای هوش مصنوعی، VALL-E می تواند احساسات و لحن گوینده را نیز تکرار کند.

VALL-E ابزار هوش مصنوعی که می تواند هر صدایی را تکرار کند

مایکروسافت از یک مدل جدید هوش مصنوعی تبدیل متن به گفتار به نام VALL-E رونمایی کرده است که می تواند صدای هرکسی را تنها با یک کلیپ صوتی سه ثانیه ای، صحبت کردن آن ها را به طور دقیق شبیه سازی کند. همانطور که توسط Ars Technica گزارش شده است محققان، این غول نرم افزاری را در یک مقاله تحقیقاتی جدید نسخه ی نمایشی GitHub نشان داده اند. اگرچه VALL-E هنوز در مراحل ابتدایی خود است اما با عملکردی که از خود نشان داده جامعه علمی را تحت تأثیر قرار داده است.

: VALL-E ابزار هوش مصنوعی

سازندگان VALL-E براین باورند که مدل جدید هوش مصنوعی آن ها روزی می تواند در نرم افزار تبدیل متن به گفتار برای ویرایش فایل های ضبط شده از قبل و حتی برای ایجاد صدای جدید در صورت استفاده در کنار سایر مدل های هوش مصنوعی مانند GPT-3 استفاده شود. به گفته مایکروسافت VALL-E یک زبان مبتنی بر شبکه عصبی است که از فناوری متا به نام EnCodec ساخته شده که در اکتبر سال گذشته میلادی معرفی شد. برای آموزش مدل جدید هوش مصنوعی محققان این شرکت از یک کتابخانه صوتی متا به نام Libri-light استفاده کردند که این کتابخانه از 60000 ساعت سخنرانی انگلیسی از بیش 7000 سخنران تشکیل شده است.

: VALL-E زبان مبتنی بر شبکه عصبی

نکته جالب دیگر در مورد VALL-E این است که می تواند از محیط صوتی کلیپ های سه ثانیه ای که برای جعل صدای افراد استفاده می شود تقلید کند. این بدان معناست که اگر بلندگوی اصلی در ماشین آن ها قرار داشته باشد یا در حال تماس تلفنی باشند مدل هوش مصنوعی صدایی با همان ویژگی های صوتی تولید می کند.

معایب احتمالی VALL-E

با این حال نگرانی هایی در مورد پیامدهای اخلاقی این فناوری وجود دارد. با قدرتمندتر شدن هوش مصنوعی صداهای تولید شده توسط VALL-E و فناوری های مشابه قانع کننده تر می شوند که می تواند دری را به روی تماس های جعلی باز کند به این دلیل که می تواند صداهای سیاستمداران و سایر شخصیت های عمومی را جعل کند که منجر به انتشار اطلاعات نادرست در رسانه های اجتماعی شود.

: معایب احتمالی VALL-E

همچنین نگرانی های امنیتی نیز وجود دارد. برخی بانک ها از فناوری تشخیص صدا برای تأیید هویت تماس گیرنده استفاده می کنند اما اگر صداهای تولید شده توسط هوش مصنوعی قانع کننده تر شود تشخیص اینکه آیا تماس گیرنده از صدای VALL-E استفاده می کند یا نه دشوارتر می شود. علاوه براین، این فناوری ممکن است بر صداپیشگان نیز تأثیر بگذارد زیرا اگر صداهای تولید شده توسط هوش مصنوعی واقعی تر شوند ممکن است دیگر به خدمات صداپیشگان نیازی نباشد.

علیرضا باقری