VALL-E imita tu voz con solo 3 segundos

Vall-E es un modelo de lenguaje de Microsoft que es capaz de sintetizar el texto y transformarlo en voz en tan solo 3 segundos.

Vall-E es un modelo de lenguaje de Microsoft que es capaz de sintetizar el texto y transformarlo en voz.

Vall-E es un modelo de síntesis de voz de código abierto desarrollado por Microsoft. Puede generar voz de alta calidad y aprende a generar voz a partir de un solo ejemplo de habla en tan solo 3 segundos.

Esto significa que puede generar voz en un idioma nuevo sin necesidad de entrenarlo en un conjunto de datos de voz específico de ese idioma.

Además, Vall-E también puede mantener la emoción y el entorno acústico de la voz de origen. Esto significa que puede generar voz que suene como si la hubiera dicho una persona real en un lugar específico.

La página web de VALL-E X proporciona demostraciones que permiten a los usuarios que comprueben todas las posibilidades de la generación de las nuevas voces.

Vall-E «dispone de capacidades de aprendizaje en contexto y se puede utilizar para sintetizar voz personalizada de alta calidad con solo una grabación registrada de tres segundos de un hablante invisible como un aviso acústico.»

Los resultados experimentales demuestran que puede generar habla de alta calidad en el idioma de destino a partir de un único enunciado en el idioma de origen, conservando la voz, la emoción y el entorno acústico del hablante invisible
Fuente: Microsoft Vall-E

GitHub: Implementación de código abierto del modelo zero-shot TTS

Es compatible con ChatGPT y con aplicaciones de síntesis de voz como TTS.

VALL-E es una herramienta poderosa que tiene el potencial de revolucionar la forma en que interactuamos con la tecnología. Su capacidad para generar voz de alta calidad en varios idiomas y clonar la voz de un hablante real lo hace ideal para una variedad de aplicaciones, como la educación, el entretenimiento o la atención al cliente.

Pero quizá el punto más importante es el que dedican a la ética.

Desde su página avisan de los riesgos potenciales del uso indebido del modelo, como la suplantación de la identificación de la voz o la suplantación de un locutor concreto.

— Realizamos los experimentos bajo el supuesto de que el usuario acepta ser el hablante objetivo en la síntesis de voz.

— Si el modelo se generaliza a hablantes no identificados en el mundo real, debería incluir un protocolo que garantice que el hablante aprueba el uso de su voz y de un modelo de detección de voz sintetizada.

— Si sospecha que VALL-E /X se está utilizando de forma abusiva o ilegal o que vulnera sus derechos o los derechos de otras personas, puede denunciarlo en el Portal de Denuncia de Abusos.

Para seguir la actualidad de las noticias más interesantes sobre robótica colaborativa e inteligencia artificial, no dudes en visitar nuestras Últimas noticias.

Dolores Abuin

Abogada especializada en Inteligencia Artificial Generativa, LLMS y ética de la IA. Participa en la elaboración del Código de Buenas Prácticas de la Comisión Europea y la Oficina Europea de IA, que regulará el uso de modelos de IA de propósito general en la UE. Miembro de OdiseIA en el área robots-persona.

Comparte esta noticia si crees que puede ser interesante. Gracias por leernos.