Microsoft dévoile VALL-E, une IA audio capable de simuler n’importe quelle voix à partir d’invites de 3 secondes

#image_title

<p> &lbrack;ad&lowbar;1&rsqb;<br &sol;>&NewLine;<&sol;p>&NewLine;<div id&equals;"center&lowbar;content&lowbar;div">&NewLine;<div class&equals;"content&lowbar;text row description">&NewLine;<p>Les chercheurs de Microsoft ont récemment annoncé VALL-E&comma; un nouveau modèle d&rsquo&semi;IA de synthèse vocale qui peut imiter avec précision la voix d&rsquo&semi;une personne lorsqu&rsquo&semi;on lui donne un échantillon audio de trois secondes&period; Une fois qu&rsquo&semi;il a appris une voix spécifique&comma; VALL-E peut synthétiser l&rsquo&semi;audio de cette personne disant n&rsquo&semi;importe quoi&comma; tout en essayant de conserver le ton émotionnel de l&rsquo&semi;orateur&period; Lorsqu&rsquo&semi;il est combiné avec d&rsquo&semi;autres modèles d&rsquo&semi;IA génératifs comme GPT-3&comma; les créateurs de VALL-E pensent qu&rsquo&semi;il peut être utilisé pour des applications de synthèse vocale de haute qualité&comma; l&rsquo&semi;édition de la parole dans laquelle un enregistrement d&rsquo&semi;une personne pourrait être édité et modifié à partir d&rsquo&semi;une transcription de texte &lpar;en leur faisant dire quelque chose qu&rsquo&semi;ils n&rsquo&semi;ont pas dit&rpar; et la création de contenu audio&period;<&sol;p>&NewLine;<p>Selon Microsoft&comma; VALL-E est <a rel&equals;"nofollow noopener" href&equals;"https&colon;&sol;&sol;arxiv&period;org&sol;pdf&sol;2301&period;02111&period;pdf" target&equals;"&lowbar;blank">principalement<&sol;a> un « modèle de langage de codec neuronal »&comma; et est basé sur EnCodec&comma; que Meta a révélé en octobre 2022&period; VALL-E crée des codes de codec audio discrets à partir de texte et d&rsquo&semi;invites acoustiques&comma; par opposition à d&rsquo&semi;autres méthodes de synthèse vocale qui synthétisent généralement la parole par manipulation des formes d&rsquo&semi;onde&period; Il traite le son d&rsquo&semi;une personne&comma; décompose les données pertinentes en composants discrets &lpar;appelés « jetons »&rpar; à l&rsquo&semi;aide d&rsquo&semi;EnCodec&comma; puis utilise des données d&rsquo&semi;entraînement pour faire correspondre ce qu&rsquo&semi;il « sait » sur la façon dont cette voix pourrait sonner si elle prononçait d&rsquo&semi;autres phrases au-delà&period; l&rsquo&semi;échantillon de trois secondes&period;<&sol;p>&NewLine;<p>Microsoft a formé les fonctionnalités de synthèse vocale de VALL-E à l&rsquo&semi;aide de la bibliothèque audio LibriLight de Meta&period; Il comprend 60 000 heures de discours en anglais de plus de 7 000 locuteurs&comma; provenant principalement des livres audio du domaine public LibriVox&period; La voix dans l&rsquo&semi;échantillon de trois secondes doit ressembler étroitement à une voix dans l&rsquo&semi;algorithme d&rsquo&semi;apprentissage de VALL-E pour produire un bon résultat&period;<&sol;p>&NewLine;<p>Le géant américain de la technologie propose des dizaines d&rsquo&semi;exemples audio du modèle d&rsquo&semi;IA en action sur le <a rel&equals;"nofollow noopener" href&equals;"https&colon;&sol;&sol;valle-demo&period;github&period;io&sol;" target&equals;"&lowbar;blank">Exemple de site Web VALL-E<&sol;a>&period; L&rsquo&semi;ensemble de données « Speaker Prompt » est l&rsquo&semi;audio de trois secondes donné à VALL-E qu&rsquo&semi;il doit essayer d&rsquo&semi;émuler&period; La « Ground Truth » est une version précédemment enregistrée de ce même locuteur disant une phrase spécifique à des fins de comparaison &lpar;un peu comme le « contrôle » dans l&rsquo&semi;expérience&rpar;&period; L&rsquo&semi;échantillon « Baseline » est généré par une méthode de synthèse texte-parole traditionnelle&comma; et l&rsquo&semi;échantillon « VALL-E » est généré par le modèle VALL-E&period;<&sol;p>&NewLine;<p><span class&equals;"mt-enclosure mt-enclosure-image"><img width&equals;"1" height&equals;"1" loading&equals;"lazy" alt&equals;"Schéma fonctionnel Microsoft VALL-E Microsoft VALL-E Microsoft" src&equals;"https&colon;&sol;&sol;thebuzzly&period;com&sol;wp-content&sol;uploads&sol;2023&sol;01&sol;Microsoft-devoile-VALL-E-une-IA-audio-capable-de-simuler-nimporte&period;jpg" &sol;><&sol;span><&sol;p>&NewLine;<p>Un schéma fonctionnel de VALL-E comme indiqué dans l&rsquo&semi;exemple de site Web par les chercheurs de Microsoft<br &sol;><span class&equals;"ins&lowbar;instory&lowbar;span&lowbar;credit">Crédit photo &colon; Microsoft<&sol;span><&sol;p>&NewLine;<p>Les chercheurs n&rsquo&semi;ont fourni que l&rsquo&semi;échantillon « Speaker Prompt » de trois secondes et une chaîne de texte &lpar;ce qu&rsquo&semi;ils voudraient que la voix dise&rpar; dans VALL-E pour obtenir ces résultats&period; Certains résultats VALL-E semblent générés par ordinateur&comma; mais d&rsquo&semi;autres pourraient être mal compris pour la parole humaine&comma; ce qui est l&rsquo&semi;objectif du modèle&period; En raison du potentiel de VALL-E à alimenter les actes répréhensibles et la tromperie&comma; Microsoft n&rsquo&semi;a pas rendu le code VALL-E disponible pour que d&rsquo&semi;autres puissent l&rsquo&semi;explorer&period; Les chercheurs semblent être conscients des dommages sociaux potentiels que cette technologie peut causer&period;<&sol;p>&NewLine;<p>Ils écrivent dans la conclusion de l&rsquo&semi;article &colon; « Puisque VALL-E pourrait synthétiser la parole qui maintient l&rsquo&semi;identité du locuteur&comma; il peut comporter des risques potentiels d&rsquo&semi;utilisation abusive du modèle&comma; tels que l&rsquo&semi;usurpation d&rsquo&semi;identité vocale ou l&rsquo&semi;usurpation d&rsquo&semi;identité d&rsquo&semi;un locuteur spécifique&period; Pour atténuer ces risques&comma; il est possible pour construire un modèle de détection pour déterminer si un clip audio a été synthétisé par VALL-E&period; Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles&period;<&sol;p>&NewLine;<hr &sol;>&NewLine;<div class&equals;"downloadtxt"><i>Des liens d&rsquo&semi;affiliation peuvent être générés automatiquement &&num;8211&semi; consultez notre déclaration d&rsquo&semi;éthique pour plus de détails&period;<&sol;i><&sol;div>&NewLine;<&sol;div>&NewLine;<p class&equals;"downloadtxt margin&lowbar;b20">Découvrez les dernières nouveautés du Consumer Electronics Show sur thebuzzly&comma; dans notre hub CES 2023&period;<&sol;p>&NewLine;<div class&equals;"story&lowbar;nextprv">&NewLine;<div class&equals;"left&lowbar;story">&NewLine;<p> <i class&equals;"sprite" &sol;><&sol;p>&NewLine;<div class&equals;"story&lowbar;image">&NewLine; <img class&equals;"lazy" src&equals;"https&colon;&sol;&sol;thebuzzly&period;com&sol;wp-content&sol;uploads&sol;2023&sol;01&sol;Microsoft-devoile-VALL-E-une-IA-audio-capable-de-simuler-nimporte&period;png" data-original&equals;"https&colon;&sol;&sol;i&period;gadgets360cdn&period;com&sol;large&sol;Redmi&lowbar;12C&lowbar;thumb&lowbar;1672656806227&period;jpg&quest;downsize&equals;90&colon;68&amp&semi;output-quality&equals;70" alt&equals;"Microsoft dévoile VALL-E&comma; une IA audio capable de simuler n'importe quelle voix à partir d'invites de 3 secondes" width&equals;"90" height&equals;"68" loading&equals;"lazy" &sol;>&NewLine; <&sol;div>&NewLine;<p> <span>Le Poco C55 devrait être un Redmi 12C renommé&comma; qui devrait être lancé prochainement<&sol;span><&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<div class&equals;"&lowbar;vdowgt margin&lowbar;b30">&NewLine;<p>Vidéo vedette du jour<&sol;p>&NewLine;<p>&lbrack;Sponsored&rsqb; Faber Candy &&num;8211&semi; Design fantastique&comma; performances incroyables<&sol;p>&NewLine;<&sol;p><&sol;div>&NewLine;<p> &lt&semi;&excl;&&num;8211&semi;<&sol;p>&NewLine;<div class&equals;"adhead">&NewLine; <span>Advertisement<&sol;span><&sol;p>&NewLine;<div id&equals;'div-gpt-ad-1667475893419-0' style&equals;"min-width&colon; 728px&semi;min-height&colon; 90px&semi;text-align&colon;center"><&sol;div>&NewLine;<&sol;div>&NewLine;<p>&&num;8211&semi;&gt&semi;<&sol;p><&sol;div>&NewLine;<p>&lbrack;ad&lowbar;2&rsqb;<br &sol;>&NewLine;<br &sol;><a href&equals;"https&colon;&sol;&sol;www&period;gadgets360&period;com&sol;internet&sol;news&sol;microsoft-vall-e-audio-ai-reveal-simulate-voice-3680286&num;rss-gadgets-all">Source link <&sol;a><&sol;p>&NewLine;

Quitter la version mobile