Tecnología

Esta nueva IA puede simular tu voz con solo 3 segundos de audio

El nuevo modelo de lenguaje de Microsoft Vall-E Se dice que es capaz de imitar cualquier sonido usando solo una grabación de muestra de tres segundos.

La herramienta de inteligencia artificial recientemente lanzada se probó en 60 000 horas de datos de habla en inglés. Los investigadores dijeron en un artículo de la Universidad de Cornell que podría imitar las emociones y el tono del hablante.

Estas observaciones aparentemente eran ciertas incluso cuando se creó una grabación de palabras que nunca fueron pronunciadas por el hablante original.

«Vall-E ofrece funciones de aprendizaje en contexto y se puede utilizar para sintetizar el habla personal de alta calidad. solo una grabación de 3 segundos de un altavoz invisible como aviso acústico. Los resultados de las pruebas muestran que Vall-E es significativamente mejor que la imagen cero de última generación [text to speech] en términos de naturalidad del habla del sistema y similitud del hablante», escribieron los autores. «Además, encontramos que Vall-E podría preservar la emoción del hablante y las indicaciones acústicas en la síntesis del entorno acústico».

LOS PROGRAMAS DE ESPÍA DE ANDROID ATACAN LAS INSTITUCIONES FINANCIERAS Y EL DINERO DE NUEVO

Los letreros del stand de Microsoft Corporation se exhiben en CES 2023 en el Centro de Convenciones de Las Vegas el 6 de enero de 2023 en Las Vegas, Nevada.
((Foto de David Becker/Getty Images))

Muestras Vall-E Los que se comparten en GitHub son inquietantemente similares a las indicaciones del orador, aunque varían en calidad.

En una oración sintetizada de la base de datos de Voces Emocionales, Vall-E pronuncia adormilada la frase: «Necesitamos reducir la cantidad de bolsas de plástico».

READ  Destruyen la antena Starlink para averiguar cómo se conecta a Internet satelital de Elon Musk

LOS PERSONAJES DE DISNEY LLEGAN A AMAZON ALEXA CON EL COMANDO «Hey DISNEY»

El nuevo modelo de lenguaje de Microsoft, Vall-E, puede imitar cualquier sonido con solo una grabación de muestra de tres segundos.

El nuevo modelo de lenguaje de Microsoft, Vall-E, puede imitar cualquier sonido con solo una grabación de muestra de tres segundos.
(iStock)

Sin embargo, un estudio en IA de texto a voz viene con una advertencia.

“Debido a que Vall-E pudo sintetizar un habla que preserva la identidad del hablante, puede contiene riesgos potenciales de mal uso del modelo, como la falsificación del reconocimiento de voz o la suplantación de un determinado hablante”, dicen los investigadores en el sitio web. “Realizamos los experimentos asumiendo que el usuario acepta ser el hablante objetivo de la síntesis de voz. Al generalizar el modelo a hablantes invisibles en el mundo real, debe incluir un protocolo para garantizar que el hablante dé su consentimiento para el uso de su voz, así como un modelo de reconocimiento de voz sintetizado».

Firmas corporativas de Microsoft Corporation en el Centro de Desarrollo de Microsoft India en Noida, India, el viernes 11 de noviembre de 2022.

Señalización corporativa de Microsoft Corporation en el Centro de Desarrollo de Microsoft India en Noida, India, el viernes 11 de noviembre de 2022.
(Foto de Prakash Singh/Bloomberg vía Getty Images)

HAGA CLIC AQUÍ PARA OBTENER LA APLICACIÓN FOX NEWS

Actualmente, Vall-E, que Microsoft llama un «modelo de lenguaje de códec neuronal», no está disponible para el público.

Patricio Arocha

Especialista web. Evangelista de viajes. Alborotador. Fanático de la música amigable con los hipster. Experto en comida

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba
Cerrar
Cerrar