Tecnología

El «Generador de imagen a texto a imagen» de Google es altamente fotorrealista

Ultimas semanas, DALL-E 2 El generador de imágenes de inteligencia artificial ha hecho olas en Twitter. Google lanzó esta noche su propia versión llamada «Imagen«y combina una profunda comprensión del lenguaje con ‘fotorrealismo sin precedentes’.

Por Google AI lidera a Jeff Dean, los sistemas de inteligencia artificial como este «pueden desatar la creatividad de las personas y las computadoras juntas», e Imagen es «one way» [the company is] «Google Research, el avance de Brain Team en su modelo de difusión de texto a imagen es un nivel de realismo. En general, el DALL-E 2 es más realista con sus resultados, pero una mirada más profunda puede revelar las licencias artísticas hechas . mira este video explicativo.)

Imagen se basa en el poder de los grandes modelos de lenguaje transformador en la comprensión de textos y la fuerza de los modelos de difusión en la creación de una imagen de alta precisión. Nuestro hallazgo clave es que los modelos genéricos de lenguaje grande (p. ej., T5) enseñados previamente con corpus de texto sin formato son sorprendentemente eficientes en la codificación de texto para la síntesis de imágenes: aumentar el tamaño del modelo de lenguaje en Imagen mejora en gran medida tanto la precisión de la muestra como la alineación del texto con la imagen. . más que aumentar el tamaño del modelo de difusión de imágenes.

Para probar este progreso, Google creó un punto de referencia para evaluar modelos de texto a imagen. dibujarbanco. Los evaluadores humanos favorecen «la imagen sobre otros modelos en comparaciones paralelas en términos de calidad de la muestra y alineación de la imagen y el texto». Se comparó con los modelos VQ-GAN + CLIP, Latent Diffusion y DALL-E 2.

READ  Así es como funcionarán las reacciones similares a iMessage en WhatsApp para iOS

Al mismo tiempo, las métricas utilizadas para mostrar que Imagen comprende mejor las solicitudes de los usuarios incluyen relaciones espaciales, texto largo, palabras raras y mensajes desafiantes. Otro paso adelante es una nueva y poderosa arquitectura U-Net que es «más informática, eficiente en memoria y convergente más rápido».

Imagen logra un nuevo puntaje FID de última generación, 7.27 en el conjunto de datos COCO, sin capacitación COCO, y los evaluadores humanos encuentran que las muestras de Imagen están en la misma posición que los propios datos COCO en la alineación de imagen y texto.

En el frente social, Google «optó por no publicar el código de Imagen o la demostración pública» en este momento debido a un posible abuso. Además:

Imagen se basa en un codificador de texto entrenado en datos a escala web no verificados y, por lo tanto, hereda los prejuicios sociales y las limitaciones de los grandes modelos de lenguaje. Como tal, existe el riesgo de que Imagen haya codificado estereotipos y actuaciones perjudiciales, lo que guiará nuestra decisión de no publicar Imagen para uso público sin garantías adicionales.

Se dice que hay sitio de demostración interactivoy el trabajo de investigación se puede encontrar aquí.

Más sobre la IA de Google:

FTC: Utilizamos enlaces de afiliados monetizados. Más.


Ver más noticias de 9to5Google en YouTube:

Patricio Arocha

Especialista web. Evangelista de viajes. Alborotador. Fanático de la música amigable con los hipster. Experto en comida

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Botón volver arriba
Cerrar
Cerrar