Microsoft dévoile VALL-E, une IA audio capable de simuler n’importe quelle voix à partir d’invites de 3 secondes

by thebuzzly
2 ans ago

<p> [ad&lowbar;1]<br />&NewLine;</p>&NewLine;<div id="center&lowbar;content&lowbar;div">&NewLine;<div class="content&lowbar;text row description">&NewLine;<p>Les chercheurs de Microsoft ont récemment annoncé VALL-E, un nouveau modèle d&rsquo&semi;IA de synthèse vocale qui peut imiter avec précision la voix d&rsquo&semi;une personne lorsqu&rsquo&semi;on lui donne un échantillon audio de trois secondes&period; Une fois qu&rsquo&semi;il a appris une voix spécifique, VALL-E peut synthétiser l&rsquo&semi;audio de cette personne disant n&rsquo&semi;importe quoi, tout en essayant de conserver le ton émotionnel de l&rsquo&semi;orateur&period; Lorsqu&rsquo&semi;il est combiné avec d&rsquo&semi;autres modèles d&rsquo&semi;IA génératifs comme GPT-3, les créateurs de VALL-E pensent qu&rsquo&semi;il peut être utilisé pour des applications de synthèse vocale de haute qualité, l&rsquo&semi;édition de la parole dans laquelle un enregistrement d&rsquo&semi;une personne pourrait être édité et modifié à partir d&rsquo&semi;une transcription de texte (en leur faisant dire quelque chose qu&rsquo&semi;ils n&rsquo&semi;ont pas dit) et la création de contenu audio&period;</p>&NewLine;<p>Selon Microsoft, VALL-E est <a rel="nofollow noopener" href="https&colon;//arxiv&period;org/pdf/2301&period;02111&period;pdf" target="&lowbar;blank">principalement</a> un « modèle de langage de codec neuronal », et est basé sur EnCodec, que Meta a révélé en octobre 2022&period; VALL-E crée des codes de codec audio discrets à partir de texte et d&rsquo&semi;invites acoustiques, par opposition à d&rsquo&semi;autres méthodes de synthèse vocale qui synthétisent généralement la parole par manipulation des formes d&rsquo&semi;onde&period; Il traite le son d&rsquo&semi;une personne, décompose les données pertinentes en composants discrets (appelés « jetons ») à l&rsquo&semi;aide d&rsquo&semi;EnCodec, puis utilise des données d&rsquo&semi;entraînement pour faire correspondre ce qu&rsquo&semi;il « sait » sur la façon dont cette voix pourrait sonner si elle prononçait d&rsquo&semi;autres phrases au-delà&period; l&rsquo&semi;échantillon de trois secondes&period;</p>&NewLine;<p>Microsoft a formé les fonctionnalités de synthèse vocale de VALL-E à l&rsquo&semi;aide de la bibliothèque audio LibriLight de Meta&period; Il comprend 60 000 heures de discours en anglais de plus de 7 000 locuteurs, provenant principalement des livres audio du domaine public LibriVox&period; La voix dans l&rsquo&semi;échantillon de trois secondes doit ressembler étroitement à une voix dans l&rsquo&semi;algorithme d&rsquo&semi;apprentissage de VALL-E pour produire un bon résultat&period;</p>&NewLine;<p>Le géant américain de la technologie propose des dizaines d&rsquo&semi;exemples audio du modèle d&rsquo&semi;IA en action sur le <a rel="nofollow noopener" href="https&colon;//valle-demo&period;github&period;io/" target="&lowbar;blank">Exemple de site Web VALL-E</a>&period; L&rsquo&semi;ensemble de données « Speaker Prompt » est l&rsquo&semi;audio de trois secondes donné à VALL-E qu&rsquo&semi;il doit essayer d&rsquo&semi;émuler&period; La « Ground Truth » est une version précédemment enregistrée de ce même locuteur disant une phrase spécifique à des fins de comparaison (un peu comme le « contrôle » dans l&rsquo&semi;expérience)&period; L&rsquo&semi;échantillon « Baseline » est généré par une méthode de synthèse texte-parole traditionnelle, et l&rsquo&semi;échantillon « VALL-E » est généré par le modèle VALL-E&period;</p>&NewLine;<p><span class="mt-enclosure mt-enclosure-image"><img width="1" height="1" loading="lazy" alt="Schéma fonctionnel Microsoft VALL-E Microsoft VALL-E Microsoft" src="https&colon;//thebuzzly&period;com/wp-content/uploads/2023/01/Microsoft-devoile-VALL-E-une-IA-audio-capable-de-simuler-nimporte&period;jpg" /></span></p>&NewLine;<p>Un schéma fonctionnel de VALL-E comme indiqué dans l&rsquo&semi;exemple de site Web par les chercheurs de Microsoft<br /><span class="ins&lowbar;instory&lowbar;span&lowbar;credit">Crédit photo &colon; Microsoft</span></p>&NewLine;<p>Les chercheurs n&rsquo&semi;ont fourni que l&rsquo&semi;échantillon « Speaker Prompt » de trois secondes et une chaîne de texte (ce qu&rsquo&semi;ils voudraient que la voix dise) dans VALL-E pour obtenir ces résultats&period; Certains résultats VALL-E semblent générés par ordinateur, mais d&rsquo&semi;autres pourraient être mal compris pour la parole humaine, ce qui est l&rsquo&semi;objectif du modèle&period; En raison du potentiel de VALL-E à alimenter les actes répréhensibles et la tromperie, Microsoft n&rsquo&semi;a pas rendu le code VALL-E disponible pour que d&rsquo&semi;autres puissent l&rsquo&semi;explorer&period; Les chercheurs semblent être conscients des dommages sociaux potentiels que cette technologie peut causer&period;</p>&NewLine;<p>Ils écrivent dans la conclusion de l&rsquo&semi;article &colon; « Puisque VALL-E pourrait synthétiser la parole qui maintient l&rsquo&semi;identité du locuteur, il peut comporter des risques potentiels d&rsquo&semi;utilisation abusive du modèle, tels que l&rsquo&semi;usurpation d&rsquo&semi;identité vocale ou l&rsquo&semi;usurpation d&rsquo&semi;identité d&rsquo&semi;un locuteur spécifique&period; Pour atténuer ces risques, il est possible pour construire un modèle de détection pour déterminer si un clip audio a été synthétisé par VALL-E&period; Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles&period;</p>&NewLine;<hr />&NewLine;<div class="downloadtxt"><i>Des liens d&rsquo&semi;affiliation peuvent être générés automatiquement &&num;8211&semi; consultez notre déclaration d&rsquo&semi;éthique pour plus de détails&period;</i></div>&NewLine;</div>&NewLine;<p class="downloadtxt margin&lowbar;b20">Découvrez les dernières nouveautés du Consumer Electronics Show sur thebuzzly, dans notre hub CES 2023&period;</p>&NewLine;<div class="story&lowbar;nextprv">&NewLine;<div class="left&lowbar;story">&NewLine;<p> <i class="sprite" /></p>&NewLine;<div class="story&lowbar;image">&NewLine; <img class="lazy" src="https&colon;//thebuzzly&period;com/wp-content/uploads/2023/01/Microsoft-devoile-VALL-E-une-IA-audio-capable-de-simuler-nimporte&period;png" data-original="https&colon;//i&period;gadgets360cdn&period;com/large/Redmi&lowbar;12C&lowbar;thumb&lowbar;1672656806227&period;jpg&quest;downsize=90&colon;68&amp&semi;output-quality=70" alt="Microsoft dévoile VALL-E, une IA audio capable de simuler n'importe quelle voix à partir d'invites de 3 secondes" width="90" height="68" loading="lazy" />&NewLine; </div>&NewLine;<p> <span>Le Poco C55 devrait être un Redmi 12C renommé, qui devrait être lancé prochainement</span></p></div>&NewLine;</div>&NewLine;<div class="&lowbar;vdowgt margin&lowbar;b30">&NewLine;<p>Vidéo vedette du jour</p>&NewLine;<p>[Sponsored] Faber Candy &&num;8211&semi; Design fantastique, performances incroyables</p>&NewLine;</p></div>&NewLine;<p> &lt&semi;&excl;&&num;8211&semi;</p>&NewLine;<div class="adhead">&NewLine; <span>Advertisement</span></p>&NewLine;<div id='div-gpt-ad-1667475893419-0' style="min-width&colon; 728px&semi;min-height&colon; 90px&semi;text-align&colon;center"></div>&NewLine;</div>&NewLine;<p>&&num;8211&semi;&gt&semi;</p></div>&NewLine;<p>[ad&lowbar;2]<br />&NewLine;<br /><a href="https&colon;//www&period;gadgets360&period;com/internet/news/microsoft-vall-e-audio-ai-reveal-simulate-voice-3680286&num;rss-gadgets-all">Source link </a></p>&NewLine;

Categories: TECH
Tags: AUDIO capable dévoilé dinvites Microsoft nimporte partir Quelle secondes simuler une VALLE voix

Related Content

Sora : la création de vidéos par intelligence artificielle d'OpenAI

Micron commencera la construction de l'usine en août, la production nationale de micropuces commencera d'ici 2024-fin : rapport

Twitter limite le nombre de tweets que les utilisateurs gratuits et vérifiés peuvent lire, aucun accès sans compte

Le fournisseur d'iPhone Foxconn investira 250 millions de dollars dans une unité de composants EV au Vietnam