[ad_1]

Les chercheurs de Microsoft ont récemment annoncé VALL-E, un nouveau modèle d’IA de synthèse vocale qui peut imiter avec précision la voix d’une personne lorsqu’on lui donne un échantillon audio de trois secondes. Une fois qu’il a appris une voix spécifique, VALL-E peut synthétiser l’audio de cette personne disant n’importe quoi, tout en essayant de conserver le ton émotionnel de l’orateur. Lorsqu’il est combiné avec d’autres modèles d’IA génératifs comme GPT-3, les créateurs de VALL-E pensent qu’il peut être utilisé pour des applications de synthèse vocale de haute qualité, l’édition de la parole dans laquelle un enregistrement d’une personne pourrait être édité et modifié à partir d’une transcription de texte (en leur faisant dire quelque chose qu’ils n’ont pas dit) et la création de contenu audio.

Selon Microsoft, VALL-E est principalement un « modèle de langage de codec neuronal », et est basé sur EnCodec, que Meta a révélé en octobre 2022. VALL-E crée des codes de codec audio discrets à partir de texte et d’invites acoustiques, par opposition à d’autres méthodes de synthèse vocale qui synthétisent généralement la parole par manipulation des formes d’onde. Il traite le son d’une personne, décompose les données pertinentes en composants discrets (appelés « jetons ») à l’aide d’EnCodec, puis utilise des données d’entraînement pour faire correspondre ce qu’il « sait » sur la façon dont cette voix pourrait sonner si elle prononçait d’autres phrases au-delà. l’échantillon de trois secondes.

Microsoft a formé les fonctionnalités de synthèse vocale de VALL-E à l’aide de la bibliothèque audio LibriLight de Meta. Il comprend 60 000 heures de discours en anglais de plus de 7 000 locuteurs, provenant principalement des livres audio du domaine public LibriVox. La voix dans l’échantillon de trois secondes doit ressembler étroitement à une voix dans l’algorithme d’apprentissage de VALL-E pour produire un bon résultat.

Le géant américain de la technologie propose des dizaines d’exemples audio du modèle d’IA en action sur le Exemple de site Web VALL-E. L’ensemble de données « Speaker Prompt » est l’audio de trois secondes donné à VALL-E qu’il doit essayer d’émuler. La « Ground Truth » est une version précédemment enregistrée de ce même locuteur disant une phrase spécifique à des fins de comparaison (un peu comme le « contrôle » dans l’expérience). L’échantillon « Baseline » est généré par une méthode de synthèse texte-parole traditionnelle, et l’échantillon « VALL-E » est généré par le modèle VALL-E.

Un schéma fonctionnel de VALL-E comme indiqué dans l’exemple de site Web par les chercheurs de Microsoft
Crédit photo : Microsoft

Les chercheurs n’ont fourni que l’échantillon « Speaker Prompt » de trois secondes et une chaîne de texte (ce qu’ils voudraient que la voix dise) dans VALL-E pour obtenir ces résultats. Certains résultats VALL-E semblent générés par ordinateur, mais d’autres pourraient être mal compris pour la parole humaine, ce qui est l’objectif du modèle. En raison du potentiel de VALL-E à alimenter les actes répréhensibles et la tromperie, Microsoft n’a pas rendu le code VALL-E disponible pour que d’autres puissent l’explorer. Les chercheurs semblent être conscients des dommages sociaux potentiels que cette technologie peut causer.

Ils écrivent dans la conclusion de l’article : « Puisque VALL-E pourrait synthétiser la parole qui maintient l’identité du locuteur, il peut comporter des risques potentiels d’utilisation abusive du modèle, tels que l’usurpation d’identité vocale ou l’usurpation d’identité d’un locuteur spécifique. Pour atténuer ces risques, il est possible pour construire un modèle de détection pour déterminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles.

Des liens d’affiliation peuvent être générés automatiquement – consultez notre déclaration d’éthique pour plus de détails.

Découvrez les dernières nouveautés du Consumer Electronics Show sur thebuzzly, dans notre hub CES 2023.

Le Poco C55 devrait être un Redmi 12C renommé, qui devrait être lancé prochainement

Vidéo vedette du jour

[Sponsored] Faber Candy – Design fantastique, performances incroyables

<!–

Advertisement

–>

[ad_2]

Source link

Trending Tags

Microsoft dévoile VALL-E, une IA audio capable de simuler n’importe quelle voix à partir d’invites de 3 secondes

Related Posts

Welcome Back!

Retrieve your password

Add New Playlist