Home Tecnología Gemini Omni de Google convierte imágenes, audio y texto en video, y...

Tecnología

Gemini Omni de Google convierte imágenes, audio y texto en video, y eso es solo el comienzo

May 20, 2026

Cuando Google lanzó Géminis hace tres añosEl objetivo es construir grandes modelos de lenguaje multimodal: redes neuronales únicas entrenadas en texto, imágenes, audio y video y que puedan generar contenido en cualquier formato.

Hoy, en la conferencia de desarrolladores Google I/O, la compañía dio un paso concreto hacia ese objetivo con Gemini Omni, una nueva serie de modelos multimodales que, según el CEO de Google, Sundar Pichai, podrán “crear cualquier cosa a partir de cualquier entrada”.

Omni comenzará con un vídeo. Los usuarios ahora pueden combinar imágenes, audio, video y texto y, en lugar de simplemente unir esas entradas, Omni las aprovecha todas para producir resultados consistentes. El resultado es un vídeo de alta calidad que refleja una comprensión de la física, la cultura, la historia y la ciencia.

Omni también permite a los usuarios editar fotografías con comandos de texto plano en lugar de software de edición complicado, similar a Nano Banana de Google.

Google ya tiene un modelo de video dedicado, Veo, que permite a los usuarios convertir texto e imágenes en videos, e incluso dirigir y personalizar avatares. Pero la directora de gestión de productos de Google DeepMind, Nicole Brichtova, dijo que el lanzamiento de hoy es más que una simple actualización de Veo: “Es el siguiente paso hacia el progreso en la combinación de la inteligencia de Gemini con las capacidades de renderizado de nuestros modelos de medios”.

Koray Kavukcuoglu, jefe de tecnología de DeepMind, dio un ejemplo a los periodistas durante una conferencia de prensa el lunes: cuando a Omni se le dio una orden simple como “explicación de la capa de arcilla que dobla las proteínas”, Omni rápidamente mostró un video explicativo en stop-motion con una voz en off que decía: “Las proteínas comienzan como cadenas de aminoácidos. Se pliegan en patrones como hélices alfa y secciones planas llamadas láminas beta, formando formas tridimensionales perfectas”.

La visión a largo plazo de Omni es más amplia e involucra modelos utilizados para hacer cosas como generar imágenes a partir de audio o audio a partir de video.

“Cuando anunciamos Gemini por primera vez, era nuestro primer modelo de IA multimodal”, dijo Pichai en la sesión informativa. “Sabíamos que entrenarlo con una combinación de texto, código, audio, imágenes y video le daría una comprensión más profunda del mundo. Con los modelos mundiales, la IA pasa de predecir texto a simular la realidad. Gemini Omni es el siguiente paso en esa dirección”.

Como parte del lanzamiento, los usuarios también podrán crear videos con sus propios avatares digitales, algo que OpenAI popularizó en su ahora desaparecida aplicación Sora con Cameos. Para evitar deepfakes, los usuarios deben pasar por un proceso especial de incorporación de productos, que implica grabarse y decir una serie de números, según Brichtova. Luego, el avatar se guarda para uso futuro.

Además, todos los videos creados con Omni incluirán la marca de agua digital SynthID de Google, que permite a los usuarios verificar si un video fue creado a través de un producto Gemini.

El primer modelo de la familia es Gemini Omni Flash, que hoy se implementará en la aplicación Gemini, YouTube Shorts y el estudio creativo AI Flow. Flash será capaz de reproducir vídeos de 10 segundos, lo que según Brichtova no era una limitación del modelo, sino más bien una decisión basada en el deseo de tenerlo en más manos y la anticipación de que la mayoría de los usuarios aún no querrían crear vídeos más largos. Sin embargo, pronto se planean videos más largos.

Google parece estar haciendo de Omni Flash una herramienta más para el consumidor. Los ejemplos que Brichtova y Gabe Barth-Maron, ingeniero de investigación de DeepMind, dieron en una llamada con TechCrunch sobre el uso de avatares digitales son todos personales: hacer videos de uno mismo ganando premios o yendo a la luna, o eliminando a los transeúntes del fondo de un video que tomó durante las vacaciones.

Barth-Maron lo expresa de manera más simple: “Es como un meme personalizado”.

“Estamos realmente centrados en hacer que este producto sea fácil de usar para los consumidores”, dijo Brichtova. “No hay muchos modelos de vídeo que puedan superar la brecha con los consumidores, por lo que es nuestro trabajo hacerlo”.

La facilidad de uso viene con una advertencia: Brichtova y Barth-Maron señalan que los comandos de edición deben ser muy específicos; de lo contrario, Omni corre el riesgo de editar en exceso o cambiar accidentalmente elementos que el usuario desea conservar, un problema que pueden encontrar los usuarios de Nano Banana.

Crédito de la imagen:Google

A pesar del enfoque en el consumidor a corto plazo, las implicaciones empresariales y creativas de Omni son claras, y Google hará que Omni esté disponible a través de API en las próximas semanas. La herramienta generadora de avatares, una capacidad actualmente disponible en Shorts, es algo que Google espera que utilicen los creadores de contenido. Pero en términos más generales, los flujos de trabajo multimodales integrales pueden tener un impacto transformador para los anunciantes y los cineastas.

La startup Luma AI está construyendo algo similar, una herramienta de agencia que puede generar campañas publicitarias completas basadas en resúmenes breves e imágenes de productos, impulsadas por su propio modelo “unificado”.

“De hecho, estamos bastante orgullosos de las capacidades de representación de texto de este modelo, que es muy útil para cosas como la publicidad”, dijo Brichtova. “Si quieres un producto en alguna parte, o incluso simplemente un eslogan, tiene que ser preciso… Realmente anticipamos que los cineastas y otros creadores también utilizarán este modelo”.

El modelo Omni Pro puede atender mejor casos de uso más profesionales, que debería funcionar mejor en todas las tareas de Omni. Google no ha dicho cuándo lanzará Pro, pero Brichtova dijo que sucederá cuando “sentimos que estamos en un punto en el que tenemos un cambio radical por encima de Flash”.

Estén atentos a otras novedades importantes de Google IO 2026

La Búsqueda de Google tal como la conoces ha terminado

Google actualizó la aplicación Gemini para enfrentarse a ChatGPT y Claude

Google presenta Gemini Spark, un asistente de agente 24 horas al día, 7 días a la semana con integración de Gmail

Cómo utilizar el nuevo agente de información de Google

Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.

Source link

Estén atentos a otras novedades importantes de Google IO 2026

RELATED ARTICLESMORE FROM AUTHOR

El fabricante de chips de IA SambaNova recauda 1.000 millones de dólares con una valoración de 11.000 millones de dólares, 5 meses después de...

Meta dice que desactivará la cámara de sus gafas si daña el LED de grabación

Ahora puedes dirigir la IA Claude Cowork Anthropic desde tu teléfono

RELATED ARTICLES MORE FROM AUTHOR