Cualquier nuevo modelo de IA de Google es una locura


El año pasado falsifiqué el animal de peluche de mi hijo para que pareciera que su reno de peluche estaba de vacaciones.

Fue un experimento para ver si podía recrear los eventos descritos en los anuncios de Gemini que publicó Google, y nunca le mostré a mi hijo de cuatro años el video de las aventuras del reno Buddy. Pero fue un ejercicio revelador que me hizo pensar mucho en la diferencia entre diversión inofensiva con IA generativa y descuido total. ¡Quizás el diagrama de Venn sea un círculo perfecto! Probablemente no. Pero lo que sí sé con seguridad es que las herramientas para crear vídeos realistas son sorprendentemente buenas y requieren muy poco esfuerzo y conocimiento. Y esa tendencia continuó en la era Omni Géminis.

Omni es una nueva serie de modelos generativos que se cree que algún día podrán convertir cualquier tipo de entrada (foto, vídeo, texto) en otra cosa. Pero para empezar, se trata sólo de hacer vídeos. Omni Flash es el primer modelo que Google lanzó y ahora está disponible en la plataforma de creación y edición de videos con IA de la compañía, Flow. Aún puedes usar el modelo anterior, el Veo, si lo deseas, pero el Omni mejora al Veo en varios aspectos.

Con Omni, puedes subir vídeos y utilizarlos junto con comandos de texto como punto de partida para creaciones generadas por IA. Google también afirma que Omni incorpora más conocimiento del mundo real al producir videos y, como resultado, puede hacer un mejor trabajo al mantener la coherencia de los personajes en todos los videos. Sólo hay una manera de saber realmente si la afirmación es cierta: traje el AI Buddy para empacar una pequeña bolsa hecha por IA para otra aventura.

Los resultados son tan variados que resultan confusos. Algunos de ellos son geniales: mucho más consistentes y acordes con mis órdenes que cuando probé el Veo hace cinco meses. Pero incluso los mejores clips que Omni hizo para mí todavía tenían ciertos sobresaltos de la IA, como cuando Buddy cambia repentinamente de orientación mientras salta en paracaídas.

Para el resto del vídeo, le di libertad artística a Omni. “Haga un montaje de Buddy empacando para las vacaciones y abordando un crucero para una escapada tropical. El ambiente es lindo y alegre. Buddy empaca algo lindo en su maleta que luego se reproducirá en el clip”. Allí Buddy empacó un tarro de miel; Más adelante en el clip, lo alcanza como si fuera una botella de protector solar. “Uh oh”, dice el personaje mientras se rocía miel en las uñas de los pies.

Para ser honesto, no está nada mal. Excepto por la botella de miel que sigue cambiando a lo largo del video, de un frasco a una botella con atomizador transparente llena de agua, y luego de nuevo a una botella exprimible llena de miel. Y ni siquiera puedo explicar cómo el modelo genera el fotograma final del vídeo: es como si simplemente escupiera un montón de elementos de la secuencia que acaba de crear.

Puedes usar sugerencias basadas en texto para sugerir ediciones a tus videos, y le daré crédito a Google: funcionó mejor con Omni que cuando probé Veo 3. Pero los resultados son malo con Veo: es tan malo que me resulta más fácil crear un nuevo vídeo desde cero cada vez que quiero cambiar algo. Omni aceptará sus ediciones, pero los resultados no siempre coincidirán.

He enfatizado las reacciones faciales de Buddy en sus clips de vacaciones y los resultados parecen extraños. También le dará a Buddy cuernos con el tiempo, que él no tiene. Los amigos son un QueridaMuchas gracias. Cuando le pedí que quitara los cuernos que aparecían en una escena, accedió y luego añadió los cuernos en todas las demás escenas.

El problema es que nada de esto es gratis. Hacer un video requiere créditos, que varían de 15 a 40 créditos según la duración de la escena y el “material” con el que comienzas. Una ronda de edición cuesta 40 créditos. Tengo el plan AI Pro de $20 por mes que viene con 1000 créditos cada mes. Después de unos 20 clips generados con algo de edición, bajé a 145. Si tienes una idea específica del vídeo que quieres que haga Omni, es posible que tengas que considerar muchos intercambios con el modelo para obtener un vídeo que se acerque a tu visión.

Honestamente puedo decir que no estaba preparado para lo que vi.

Uno de los puntos fuertes de Omni es agregar material generado por IA a videos reales, así que le di un respiro a Buddy y lo fingí yo mismo. A partir de un vídeo selfie con expresión neutra, le pedí a Omni que hiciera un vídeo mío comiendo un plato de espaguetis, sentado en el asiento de un avión y parado frente a la Torre Eiffel mientras mordía una baguette. Y puedo decir honestamente que no estaba preparado para lo que vi.

Hay una IA que se cuenta en mi video deepfake. El tintineo del tenedor al golpear el plato de pasta fue demasiado artificial. Hay una mujer al fondo del vídeo del avión que aparece dos veces. Pero a pesar de las pequeñas molestias y los sentimientos extraños sobre las cosas, son muy convincentes.

Le mostré a mi marido el clip de pasta; Sabía que estaba probando una herramienta de vídeo con IA, pero no le dije qué escenas estaba generando la IA. Sin saber qué se le ocurrió a la IA al respecto, pensó que estaba sentado frente a la cámara comiendo pasta y dijo que la única pista que tenía era que el cuenco parecía extraño. Comer pasta en sí parece lo suficientemente real como para resultar convincente mi marido. Un chico que básicamente me ha visto en la vida real. todos los días durante la última década.

Mis otros deepfakes tienen distintos grados de “lo suficientemente buenos como para engañar a la gente en las redes sociales”. Algunos de los clips de la Torre Eiffel parecen un poco caricaturescos, pero uno es lo suficientemente convincente como para que tengas que volver a verlo varias veces para descubrir que es IA. I Supe que no era yo cuando mi IA se giró y me mostró su cabello recogido en una cola de caballo. Pero no estoy seguro de que otras personas sepan la diferencia y me hace sentir extraño.

Ciertamente estamos en lo profundo del valle inquietante.

Para ser honesto, estoy un poco cansado de todo esto. Cuando probé el Veo 3 me sorprendió el realismo que producía. Me sorprendió lo fácil que se ha vuelto retratar repetidamente a personas falsas en fotografías falsas en los últimos años. Probablemente a mí también debería haberme sorprendido el Omni, y supongo que así fue, pero su ventaja se ha desvanecido.

Crear obras maestras cinematográficas generadas por IA todavía no es tan fácil como a Google le gustaría hacernos creer. Pero el Omni mejora al Veo en varios aspectos reconocibles. Si tienes una cuenta de Google y una tarjeta de crédito, puedes grabar un vídeo tuyo sentado en casa y hacer que parezca que estás en un vuelo a Maui con el mínimo esfuerzo. No creo que estemos en las “estribaciones de la singularidad”, pero ciertamente estamos en lo profundo del valle inquietante.

Todas las imágenes y videos de esta historia fueron generados por Google Gemini.

Seguir temas y autores de esta historia para ver más cosas similares en su feed de inicio personalizado y recibir actualizaciones por correo electrónico.




Source link