La startup de inteligencia artificial Decart presentó el miércoles Oasis 3, su último modelo de mundo interactivo que puede generar entornos de conducción fotorrealistas en tiempo real, según TechCrunch exclusivamente. El modelo está actualmente disponible a través de API.
Inicialmente, la startup se dirige a empresas de vehículos autónomos que necesitan simular escenarios de conducción poco comunes a escala y planea expandirse a la robótica y otras aplicaciones físicas de inteligencia artificial. Pero la apuesta más grande está en los desarrolladores: al ofrecer acceso a API desde el primer día, Desart está tratando de construir un ecosistema de desarrolladores en todo el mundo como lo hizo OpenAI con los modelos de lenguaje.
“Este será el primer modelo utilizable y programable por humanos del mundo”, dijo a TechCrunch Dean Leitersdorf, cofundador y director ejecutivo de Decart. “Creo que habrá toda una comunidad de desarrolladores que podrán abordar este problema”.
La startup ya cuenta con una comunidad de más de 100.000 desarrolladores, muchos de los cuales desarrollan productos basados en el modelo de vídeo en tiempo real de Lucy, principalmente en las áreas de comercio electrónico y transmisión en vivo. El Oasis 3 se basa en ese modelo básico y representa el impulso de la compañía hacia la IA física. El acceso tiene un precio de 0,02 dólares por segundo, y el precio de la empresa depende del caso de uso, dijo Desart.
Descart juega en un escenario de modelos mundiales cada vez más concurrido. El año pasado, Google lanzó Genie 3 en una vista previa de la investigación, World Labs de Fei-Fei Li lanzó Marble para casos de uso comercial y empresas emergentes de generación de video como Luma y Runway también tradujeron sus modelos de video basados en la física en modelos mundiales.
El lanzamiento de Oasis 3 se produce semanas después de que Desart, de dos años de edad, recaudara 300 millones de dólares, lo que, según Leitersdorf, se debe a “un enorme aumento en la demanda de los modelos que construimos” en el comercio electrónico, la transmisión en vivo y la inteligencia artificial física. La ronda aumentó la valoración de Desart a casi 4 mil millones de dólares y atrajo a varios inversores estratégicos como Toyota, Adobe y eBay. Todas estas empresas son clientes potenciales, afirmó Leitersdorf. Nvidia, un inversor existente, también participó en la ronda.
La ventaja del Oasis 3 radica en el fotorrealismo de sus modelos y sus capacidades de generación ilimitada. Esto se debe a un milagro de eficiencia por parte de Desart, que cuenta con el respaldo del otro producto clave de la compañía: el software DOS (Decart Optimization Stack) que permite que los modelos se ejecuten de manera eficiente en hardware de Nvidia, Amazon y Google, lo que hace que sus modelos sean mucho más baratos de ejecutar que los competidores.
“Está construido sobre toda nuestra pila en tiempo real, que optimizamos hasta el hardware”, dijo Leitersdorf. “Al estar integrados verticalmente, podemos conseguir costos mucho más bajos que otras empresas de la industria para ejecutar este modelo”.
El modelo de la startup es tan eficiente, según Leitersdorf, que gastó “menos de 100 millones de dólares durante su vida operativa.
Oasis 3 produce un entorno multicámara físicamente preciso (una frontal y dos laterales) para sistemas de entrenamiento y prueba. Y en lugar de ofrecer demostraciones limitadas y avances de investigaciones, Desart permite a los desarrolladores generar escenarios ilimitados, lo cual es perfecto para los desarrolladores de vehículos autónomos que desean probar tantos casos extremos como sea posible.
En comparación con otros modelos que he probado, como Genie 3 de Google o Marble de World Labs, el Oasis 3 ofrece los entornos más fotorrealistas a partir de un solo comando de texto que jamás haya visto. Y el hecho de que puedas interactuar con ellos durante horas muestra un nivel de eficiencia que los competidores de Desart tal vez no tengan.
Pero al permitirte generar mundos durante un largo período de tiempo, el modelo también se degrada significativamente.
En mis pruebas, descubrí que el sistema podía configurar consistentemente escenas iniciales sólidas que cumplían con el mensaje, pero la integridad temática disminuyó rápidamente a medida que exploraba el mundo. Lo animé a recorrer las calles de la ciudad de Nueva York por la mañana y los resultados fueron hermosos. Pero cuando conducía, el barrio se parecía menos a Nueva York y más a una versión estándar de una ciudad urbana occidental.
Cuando intenté dar la vuelta y regresar a la intersección original, la intersección había desaparecido, reemplazada por un entorno completamente nuevo. Además, los controles no responden muy bien y, a menudo, perdía el control de hacia dónde se movía el automóvil (nuevamente, una debilidad compartida por los modelos de otro mundo que he probado). La experiencia no se siente como una simulación coherente, sino más bien como un flujo de conciencia inconexo y onírico que rápidamente se vuelve absurdo.
Otro problema, que también he visto con otros modelos mundiales, es que los autos simplemente pasan a otros autos, lo que significa que el modelo no simula adecuadamente la física de su entorno. Leitersdorf llama a esto “un gran problema de investigación que estamos resolviendo ahora mismo” y lo atribuye al hecho de que “hay muchos más datos sobre la buena conducción que sobre los accidentes”.
Lo que dificulta esta coherencia de la física es fundamental para el funcionamiento de este modelo del mundo. Oasis 3 es autorregresivo, lo que significa que genera un cuadro a la vez y mira hacia atrás a lo que se generó previamente para decidir qué sucede a continuación. Esta es una característica arquitectónica clave de muchos modelos mundiales y también es una característica computacionalmente intensiva.
Para mantener la coherencia, Leitersdorf dijo que el equipo de Desart está trabajando para aumentar la longitud de la memoria del modelo.
“Cada cuadro que producimos es de aproximadamente 8.000 tokens”, dijo. “Generarlos a decenas de fotogramas por segundo, son cientos de miles de tokens por segundo. La ventana de contexto se llena muy rápidamente. Estamos investigando cómo crear contextos más largos para almacenar millones de tokens más y cómo comprimir la memoria en menos tokens”.
Leitersdorf cree que el problema de coherencia puede resolverse parcialmente en la próxima versión del modelo, que permitirá a los usuarios empezar a crear mundos basados en vídeos de un entorno, en lugar de imágenes. Admite que el modelo mundial como campo es aún prematuro.
Sin embargo, el fundador está menos centrado en las limitaciones actuales de la tecnología que en las que serán cuando los desarrolladores la dominen.
“Esto me remonta a los primeros días del LLM, cuando OpenAI inventó las API para modelos”, dijo, señalando el surgimiento de una comunidad de desarrolladores que está avanzando en el campo al encontrar y crear nuevos casos de uso.
“Cuando volvamos a hablar dentro de tres meses, pensaremos: ‘Aquí hay 100 desarrolladores que crean 100 aplicaciones diferentes con Oasis, lo que nos dejó a todos boquiabiertos'”, dijo.
Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



