• About Us
  • Privacy Policy
  • Terms of Use
  • Cookies Policy
dimanche, 15 juin 2025
TheBuzzly News | Dernières nouvelles | Rapports originaux
  • ACCUEIL
  • COMMENT FAIRE
    • WINDOWS 11
    • SEO
  • TECH
    • CRYPTO-MONNAIES
  • DIVERTISSEMENT
    • CINÉMA
    • FILM
    • Musique
    • Gaming
  • MODE DE VIE
    • Voyage
    • Mode
  • BEAUTÉ
  • English Story
No Result
View All Result
TheBuzzly News | Dernières nouvelles | Rapports originaux
No Result
View All Result
Home TECH

Microsoft dévoile VALL-E, une IA audio capable de simuler n’importe quelle voix à partir d’invites de 3 secondes

#image_title

#image_title

Partager sur FacebookPartager sur TwitterPartager sur WhatsApp

[ad_1]

Les chercheurs de Microsoft ont récemment annoncé VALL-E, un nouveau modèle d’IA de synthèse vocale qui peut imiter avec précision la voix d’une personne lorsqu’on lui donne un échantillon audio de trois secondes. Une fois qu’il a appris une voix spécifique, VALL-E peut synthétiser l’audio de cette personne disant n’importe quoi, tout en essayant de conserver le ton émotionnel de l’orateur. Lorsqu’il est combiné avec d’autres modèles d’IA génératifs comme GPT-3, les créateurs de VALL-E pensent qu’il peut être utilisé pour des applications de synthèse vocale de haute qualité, l’édition de la parole dans laquelle un enregistrement d’une personne pourrait être édité et modifié à partir d’une transcription de texte (en leur faisant dire quelque chose qu’ils n’ont pas dit) et la création de contenu audio.

Selon Microsoft, VALL-E est principalement un « modèle de langage de codec neuronal », et est basé sur EnCodec, que Meta a révélé en octobre 2022. VALL-E crée des codes de codec audio discrets à partir de texte et d’invites acoustiques, par opposition à d’autres méthodes de synthèse vocale qui synthétisent généralement la parole par manipulation des formes d’onde. Il traite le son d’une personne, décompose les données pertinentes en composants discrets (appelés « jetons ») à l’aide d’EnCodec, puis utilise des données d’entraînement pour faire correspondre ce qu’il « sait » sur la façon dont cette voix pourrait sonner si elle prononçait d’autres phrases au-delà. l’échantillon de trois secondes.

Microsoft a formé les fonctionnalités de synthèse vocale de VALL-E à l’aide de la bibliothèque audio LibriLight de Meta. Il comprend 60 000 heures de discours en anglais de plus de 7 000 locuteurs, provenant principalement des livres audio du domaine public LibriVox. La voix dans l’échantillon de trois secondes doit ressembler étroitement à une voix dans l’algorithme d’apprentissage de VALL-E pour produire un bon résultat.

Le géant américain de la technologie propose des dizaines d’exemples audio du modèle d’IA en action sur le Exemple de site Web VALL-E. L’ensemble de données « Speaker Prompt » est l’audio de trois secondes donné à VALL-E qu’il doit essayer d’émuler. La « Ground Truth » est une version précédemment enregistrée de ce même locuteur disant une phrase spécifique à des fins de comparaison (un peu comme le « contrôle » dans l’expérience). L’échantillon « Baseline » est généré par une méthode de synthèse texte-parole traditionnelle, et l’échantillon « VALL-E » est généré par le modèle VALL-E.

Schéma fonctionnel Microsoft VALL-E Microsoft VALL-E Microsoft

Un schéma fonctionnel de VALL-E comme indiqué dans l’exemple de site Web par les chercheurs de Microsoft
Crédit photo : Microsoft

Les chercheurs n’ont fourni que l’échantillon « Speaker Prompt » de trois secondes et une chaîne de texte (ce qu’ils voudraient que la voix dise) dans VALL-E pour obtenir ces résultats. Certains résultats VALL-E semblent générés par ordinateur, mais d’autres pourraient être mal compris pour la parole humaine, ce qui est l’objectif du modèle. En raison du potentiel de VALL-E à alimenter les actes répréhensibles et la tromperie, Microsoft n’a pas rendu le code VALL-E disponible pour que d’autres puissent l’explorer. Les chercheurs semblent être conscients des dommages sociaux potentiels que cette technologie peut causer.

Ils écrivent dans la conclusion de l’article : « Puisque VALL-E pourrait synthétiser la parole qui maintient l’identité du locuteur, il peut comporter des risques potentiels d’utilisation abusive du modèle, tels que l’usurpation d’identité vocale ou l’usurpation d’identité d’un locuteur spécifique. Pour atténuer ces risques, il est possible pour construire un modèle de détection pour déterminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles.


Des liens d’affiliation peuvent être générés automatiquement – consultez notre déclaration d’éthique pour plus de détails.

Découvrez les dernières nouveautés du Consumer Electronics Show sur thebuzzly, dans notre hub CES 2023.

Microsoft dévoile VALL-E, une IA audio capable de simuler n'importe quelle voix à partir d'invites de 3 secondes

Le Poco C55 devrait être un Redmi 12C renommé, qui devrait être lancé prochainement

Vidéo vedette du jour

[Sponsored] Faber Candy – Design fantastique, performances incroyables

<!–

Advertisement

–>

[ad_2]

Source link

Related Posts

#image_title
TECH

Binance se retire du Canada dans un contexte de réglementation cryptographique renforcée

14/05/2023
TECH

Realme GT Neo 3 (150W) Premières impressions: charge super rapide avec un côté de jeu

29/04/2022
Comment La Technologie Sintegre Dans Les Programmes De Sante Mentale
TECH

Comment la technologie s’intègre dans les programmes de santé mentale et de sécurité des élèves

22/09/2022
Pixel 7 La Date De Lancement De Pixel 7 Pro
TECH

Pixel 7, la date de lancement de Pixel 7 Pro est annoncée et serait disponible en pré-commande le même jour

01/08/2022
Load More
English Story

My Bride Handed Me a Note Asking Me to ‘Say No at the Altar’ — It Sounded Crazy, but I Trusted Her Plan

10/03/2025
English Story

Woman Regularly Runs into Old Lady with Triplets, Later Sees Police Taking Kids Away

24/06/2023
  • About Us
  • Privacy Policy
  • Terms of Use
  • Cookies Policy

© 2018-2024 TheBuzzly

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • ACCUEIL
  • COMMENT FAIRE
    • WINDOWS 11
    • SEO
  • TECH
    • CRYPTO-MONNAIES
  • DIVERTISSEMENT
    • CINÉMA
    • FILM
    • Musique
    • Gaming
  • MODE DE VIE
    • Voyage
    • Mode
  • BEAUTÉ
  • English Story

© 2018-2024 TheBuzzly

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.