Esta nueva IA puede simular tu voz con solo 3 segundos de audio
El nuevo modelo de lenguaje de Microsoft Vall-E Se dice que es capaz de imitar cualquier sonido usando solo una grabación de muestra de tres segundos.
La herramienta de inteligencia artificial recientemente lanzada se probó en 60 000 horas de datos de habla en inglés. Los investigadores dijeron en un artículo de la Universidad de Cornell que podría imitar las emociones y el tono del hablante.
Estas observaciones aparentemente eran ciertas incluso cuando se creó una grabación de palabras que nunca fueron pronunciadas por el hablante original.
“Vall-E ofrece funciones de aprendizaje en contexto y se puede utilizar para sintetizar el habla personal de alta calidad. solo una grabación de 3 segundos de un altavoz invisible como aviso acústico. Los resultados de las pruebas muestran que Vall-E es significativamente mejor que la imagen cero de última generación [text to speech] en términos de naturalidad del habla del sistema y similitud del hablante”, escribieron los autores. “Además, encontramos que Vall-E podría preservar la emoción del hablante y las indicaciones acústicas en la síntesis del entorno acústico”.
LOS PROGRAMAS DE ESPÍA DE ANDROID ATACAN LAS INSTITUCIONES FINANCIERAS Y EL DINERO DE NUEVO
Muestras Vall-E Los que se comparten en GitHub son inquietantemente similares a las indicaciones del orador, aunque varían en calidad.
En una oración sintetizada de la base de datos de Voces Emocionales, Vall-E pronuncia adormilada la frase: “Necesitamos reducir la cantidad de bolsas de plástico”.
LOS PERSONAJES DE DISNEY LLEGAN A AMAZON ALEXA CON EL COMANDO “Hey DISNEY”
Sin embargo, un estudio en IA de texto a voz viene con una advertencia.
“Debido a que Vall-E pudo sintetizar un habla que preserva la identidad del hablante, puede contiene riesgos potenciales de mal uso del modelo, como la falsificación del reconocimiento de voz o la suplantación de un determinado hablante”, dicen los investigadores en el sitio web. “Realizamos los experimentos asumiendo que el usuario acepta ser el hablante objetivo de la síntesis de voz. Al generalizar el modelo a hablantes invisibles en el mundo real, debe incluir un protocolo para garantizar que el hablante dé su consentimiento para el uso de su voz, así como un modelo de reconocimiento de voz sintetizado”.
HAGA CLIC AQUÍ PARA OBTENER LA APLICACIÓN FOX NEWS
Actualmente, Vall-E, que Microsoft llama un “modelo de lenguaje de códec neuronal”, no está disponible para el público.
Especialista web. Evangelista de viajes. Alborotador. Fanático de la música amigable con los hipster. Experto en comida