<p> [ad_1]<br />
</p>
<div id="center_content_div">
<div class="content_text row description">
<p>Les chercheurs de Microsoft ont récemment annoncé VALL-E, un nouveau modèle d&rsquo;IA de synthèse vocale qui peut imiter avec précision la voix d&rsquo;une personne lorsqu&rsquo;on lui donne un échantillon audio de trois secondes. Une fois qu&rsquo;il a appris une voix spécifique, VALL-E peut synthétiser l&rsquo;audio de cette personne disant n&rsquo;importe quoi, tout en essayant de conserver le ton émotionnel de l&rsquo;orateur. Lorsqu&rsquo;il est combiné avec d&rsquo;autres modèles d&rsquo;IA génératifs comme GPT-3, les créateurs de VALL-E pensent qu&rsquo;il peut être utilisé pour des applications de synthèse vocale de haute qualité, l&rsquo;édition de la parole dans laquelle un enregistrement d&rsquo;une personne pourrait être édité et modifié à partir d&rsquo;une transcription de texte (en leur faisant dire quelque chose qu&rsquo;ils n&rsquo;ont pas dit) et la création de contenu audio.</p>
<p>Selon Microsoft, VALL-E est <a rel="nofollow noopener" href="https://arxiv.org/pdf/2301.02111.pdf" target="_blank">principalement</a> un « modèle de langage de codec neuronal », et est basé sur EnCodec, que Meta a révélé en octobre 2022. VALL-E crée des codes de codec audio discrets à partir de texte et d&rsquo;invites acoustiques, par opposition à d&rsquo;autres méthodes de synthèse vocale qui synthétisent généralement la parole par manipulation des formes d&rsquo;onde. Il traite le son d&rsquo;une personne, décompose les données pertinentes en composants discrets (appelés « jetons ») à l&rsquo;aide d&rsquo;EnCodec, puis utilise des données d&rsquo;entraînement pour faire correspondre ce qu&rsquo;il « sait » sur la façon dont cette voix pourrait sonner si elle prononçait d&rsquo;autres phrases au-delà. l&rsquo;échantillon de trois secondes.</p>
<p>Microsoft a formé les fonctionnalités de synthèse vocale de VALL-E à l&rsquo;aide de la bibliothèque audio LibriLight de Meta. Il comprend 60 000 heures de discours en anglais de plus de 7 000 locuteurs, provenant principalement des livres audio du domaine public LibriVox. La voix dans l&rsquo;échantillon de trois secondes doit ressembler étroitement à une voix dans l&rsquo;algorithme d&rsquo;apprentissage de VALL-E pour produire un bon résultat.</p>
<p>Le géant américain de la technologie propose des dizaines d&rsquo;exemples audio du modèle d&rsquo;IA en action sur le <a rel="nofollow noopener" href="https://valle-demo.github.io/" target="_blank">Exemple de site Web VALL-E</a>. L&rsquo;ensemble de données « Speaker Prompt » est l&rsquo;audio de trois secondes donné à VALL-E qu&rsquo;il doit essayer d&rsquo;émuler. La « Ground Truth » est une version précédemment enregistrée de ce même locuteur disant une phrase spécifique à des fins de comparaison (un peu comme le « contrôle » dans l&rsquo;expérience). L&rsquo;échantillon « Baseline » est généré par une méthode de synthèse texte-parole traditionnelle, et l&rsquo;échantillon « VALL-E » est généré par le modèle VALL-E.</p>
<p><span class="mt-enclosure mt-enclosure-image"><img width="1" height="1" loading="lazy" alt="Schéma fonctionnel Microsoft VALL-E Microsoft VALL-E Microsoft" src="https://thebuzzly.com/wp-content/uploads/2023/01/Microsoft-devoile-VALL-E-une-IA-audio-capable-de-simuler-nimporte.jpg" /></span></p>
<p>Un schéma fonctionnel de VALL-E comme indiqué dans l&rsquo;exemple de site Web par les chercheurs de Microsoft<br /><span class="ins_instory_span_credit">Crédit photo : Microsoft</span></p>
<p>Les chercheurs n&rsquo;ont fourni que l&rsquo;échantillon « Speaker Prompt » de trois secondes et une chaîne de texte (ce qu&rsquo;ils voudraient que la voix dise) dans VALL-E pour obtenir ces résultats. Certains résultats VALL-E semblent générés par ordinateur, mais d&rsquo;autres pourraient être mal compris pour la parole humaine, ce qui est l&rsquo;objectif du modèle. En raison du potentiel de VALL-E à alimenter les actes répréhensibles et la tromperie, Microsoft n&rsquo;a pas rendu le code VALL-E disponible pour que d&rsquo;autres puissent l&rsquo;explorer. Les chercheurs semblent être conscients des dommages sociaux potentiels que cette technologie peut causer.</p>
<p>Ils écrivent dans la conclusion de l&rsquo;article : « Puisque VALL-E pourrait synthétiser la parole qui maintient l&rsquo;identité du locuteur, il peut comporter des risques potentiels d&rsquo;utilisation abusive du modèle, tels que l&rsquo;usurpation d&rsquo;identité vocale ou l&rsquo;usurpation d&rsquo;identité d&rsquo;un locuteur spécifique. Pour atténuer ces risques, il est possible pour construire un modèle de détection pour déterminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles.</p>
<hr />
<div class="downloadtxt"><i>Des liens d&rsquo;affiliation peuvent être générés automatiquement &#8211; consultez notre déclaration d&rsquo;éthique pour plus de détails.</i></div>
</div>
<p class="downloadtxt margin_b20">Découvrez les dernières nouveautés du Consumer Electronics Show sur thebuzzly, dans notre hub CES 2023.</p>
<div class="story_nextprv">
<div class="left_story">
<p> <i class="sprite" /></p>
<div class="story_image">
 <img class="lazy" src="https://thebuzzly.com/wp-content/uploads/2023/01/Microsoft-devoile-VALL-E-une-IA-audio-capable-de-simuler-nimporte.png" data-original="https://i.gadgets360cdn.com/large/Redmi_12C_thumb_1672656806227.jpg?downsize=90:68&;output-quality=70" alt="Microsoft dévoile VALL-E, une IA audio capable de simuler n'importe quelle voix à partir d'invites de 3 secondes" width="90" height="68" loading="lazy" />
 </div>
<p> <span>Le Poco C55 devrait être un Redmi 12C renommé, qui devrait être lancé prochainement</span></p></div>
</div>
<div class="_vdowgt margin_b30">
<p>Vidéo vedette du jour</p>
<p>[Sponsored] Faber Candy &#8211; Design fantastique, performances incroyables</p>
</p></div>
<p> <;!&#8211;</p>
<div class="adhead">
 <span>Advertisement</span></p>
<div id='div-gpt-ad-1667475893419-0' style="min-width: 728px;min-height: 90px;text-align:center"></div>
</div>
<p>&#8211;>;</p></div>
<p>[ad_2]<br />
<br /><a href="https://www.gadgets360.com/internet/news/microsoft-vall-e-audio-ai-reveal-simulate-voice-3680286#rss-gadgets-all">Source link </a></p>

Microsoft dévoile VALL-E, une IA audio capable de simuler n’importe quelle voix à partir d’invites de 3 secondes
-
by thebuzzly

#image_title
- Categories: TECH
- Tags: AUDIOcapabledévoilédinvitesMicrosoftnimportepartirQuellesecondessimuleruneVALLEvoix
Related Content
Sora : la création de vidéos par intelligence artificielle d'OpenAI
by
thebuzzly
18/02/2024