El modelo mundial Genie de Google ahora puede simular calles reales con Street View


Todos abrimos Street View en Google Maps para mostrarles a nuestros amigos cómo era la casa de nuestra infancia, o colocamos ese ícono de personita en las calles de París para ver si reservamos un hotel en un vecindario atractivo. Imagínese poder hacer precisamente eso, pero de una manera más inmersiva e interactiva que le permita simular las calles y sus alrededores, e incluso hacer cosas como ajustar el clima o ver cómo sería un escenario de “Pasado mañana”.

Ese es uno de los objetivos de la última integración de Google. A partir de hoy, Google DeepMind conecta Street View con Project Genie, el modelo mundial versátil de la compañía que puede generar entornos diversos e interactivos. La nueva función se lanzó durante la conferencia de desarrolladores Google I/O.

“Es increíblemente poderoso tanto para casos de uso de agentes (y robótica) como para juegos humanos, y esa siempre ha sido la tesis de Genie”, dijo a TechCrunch Jack Parker-Holder, científico investigador del equipo de apertura de DeepMind.

Dio el ejemplo de un nuevo robot desplegado en Londres que rara vez ve el sol. El genio puede, dijo Parker-Holder, simular el raro caso de que el sol brille sobre una casa victoriana, de modo que sus rayos no asusten al robot cuando suceda.

“Al mismo tiempo, podrías decir: ‘Iré a la ciudad de Nueva York, pero esta vez no’”, continuó. “‘Va a nevar. Quiero ver cómo se ve el bloque en la nieve'”.

Google ha estado recopilando datos de Street View durante 20 años a través de automóviles con cámaras e individuos atados a “mochilas de seguimiento”. El gigante tecnológico ha recopilado 280 mil millones de imágenes en 110 países y siete continentes.

“Con Street View, tenemos imágenes de una gran parte del mundo”, dice Jack. “Puedes imaginar lo poderoso que sería combinar esta rica fuente de información y datos del mundo real con la capacidad de simular el mundo”.

Google lanzó su último modelo mundial Genie 3 para vista previa de investigación en agosto pasado y abrió el acceso a la herramienta a los clientes de Google AI Ultra en los EE. UU. en enero, permitiéndoles crear mundos de juegos interactivos a partir de comandos de texto o imágenes. El objetivo es utilizar Genie para experiencias educativas, juegos y formación en robótica.

Genie 3 ya ayuda al poder uno de los simuladores de Waymo entrenar vehículos autónomos en “sucesos extremadamente raros”, como tornados o encuentros casuales con elefantes. Agregar datos de Street View a la combinación podría ayudar a Waymo a prepararse para su lanzamiento en más ciudades de todo el mundo.

Waymo tiene su propio simulador en el que confía para cubrir 11 ciudades de EE. UU. y está probando sus controladores de IA en varias otras. La diferencia con el Genie, dijo Parker-Holder, es que todo es desde la perspectiva del auto. Street View no sólo permite simular el mundo conectado a lugares reales, sino que también traslada el punto de vista a otro tipo de agentes, como humanos o robots.

Google está implementando Street View en Genie para algunos usuarios de Ultra en los Estados Unidos a partir de hoy, y el acceso se implementará a escala con el tiempo. Los usuarios de Global Ultra obtendrán acceso en las próximas semanas, según la empresa.

El objetivo de los investigadores es aplicar esta nueva capacidad al mayor número de personas posible, según Diego Rivas, product manager de DeepMind. Recordó que Street View en particular y Genie en general todavía son experimentos, por lo que todavía queda mucho por mejorar en términos de precisión.

En las muestras que me mostró el equipo de Google, incluida una simulación submarina del vecindario donde solía vivir, los resultados fueron impresionantes y reconocibles, pero aún así con calidad de videojuego, no fotorrealistas. Estos modelos tampoco entienden de física, lo que significa que no entienden de causa y efecto. Por ejemplo, en una simulación de una mujer corriendo a través de un Joshua Tree nevado, corre entre cactus y arbustos.

Compárese esto con, digamos, el generador de imágenes Nano Banana de Google, que ahora puede producir texto perfecto en infografías, o el generador de videos de Veo, que entiende que los barcos de papel flotan en las corrientes de agua, el humo se esparce en el aire y las formas de las cubiertas de tela.

La física no está incluida en este modelo; lo aprenden intuitivamente con el tiempo mediante la observación pasiva, tal como lo hacen los seres vivos.

“Creo que para un modelo como este, probablemente esté entre seis y 12 meses por detrás del video en términos de precisión y calidad, así que creo que es algo que resolveremos”, dijo Parker-Holder.

Jonathan Herbert, director de Google Maps que empezó a trabajar en el equipo de Street View como pasante hace 12 años, dijo que Genie aún no era capaz de crear reconstrucciones de calles de la vida real. Según él, el verdadero avance es la continuidad espacial de la IA. Si gira 360 grados, la IA recordará y simulará correctamente el entorno detrás de usted. A partir de ese momento, el modelo puede construir nuevos entornos sobre él.

“Hemos estado pensando durante mucho tiempo en cómo podemos construir los mejores y más completos modelos del mundo basados ​​en los datos de Street View”, dijo Herbert. “Hace bastante tiempo que tenemos la idea de utilizar Data Maps de nuevas formas y para nuevos tipos de investigación de IA”.

Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



Source link