En el pasado, era bastante fácil diferenciar entre imágenes generadas por humanos e imágenes generadas por IA; hace dos años, no se podía usar un modelo de imagen para crear el menú de un restaurante mexicano sin crear nuevas delicias culinarias como “enchuita”, “churiros”, “burrto” y “margarta”.
Ahora, cuando solicito el nuevo modelo ChatGPT Images 2.0 para un menú de comida mexicana, crea algo que se puede usar inmediatamente en un restaurante sin que el cliente se dé cuenta de que algo anda mal. (Sin embargo, un ceviche con un precio de $13,50 podría hacerme cuestionar la calidad del pescado).
A modo de comparación, aquí están los resultados que obtuve de DALL-E 3 hace dos años. (En ese momento ChatGPT no generaba imágenes):
Históricamente, los generadores de imágenes de IA han tenido problemas para explicar esto porque generalmente usan modelos de difusión, que funcionan reconstruyendo imágenes a partir del ruido.
“Los modelos de difusión (…) reconstruyen ciertas entradas”, dijo a TechCrunch Asmelash Teka Hadgu, fundador y director ejecutivo de Lesan AI, en 2024. “Podemos suponer que el texto de la imagen es una parte muy, muy pequeña, por lo que el creador de la imagen aprende patrones que cubren más de esos píxeles”.
Los investigadores han explorado otros mecanismos para generar imágenes. modelo autorregresivoque hace predicciones sobre cómo debería verse una imagen y cómo debería funcionar LLM.
Desafortunadamente, OpenAI se negó a responder preguntas en una conferencia de prensa esta semana sobre qué tipo de modelos admiten ChatGPT Images 2.0.
Evento tecnológico
San Francisco, California
|
13-15 de octubre de 2026
Sin embargo, la compañía explica que el nuevo modelo tiene “capacidades de pensamiento”, lo que le permite buscar en la web, crear múltiples imágenes con un solo comando y verificar la creación; esto permite a Image 2.0 crear recursos de marketing de cualquier tamaño, así como cómics de varios paneles.
OpenAI también dijo que Images tiene una mejor comprensión de la representación de texto no latino en idiomas como japonés, coreano, hindi y bengalí. El conocimiento del modelo se detiene en diciembre de 2025, lo que podría afectar la precisión con la que el modelo puede producir ciertas pistas relacionadas con noticias de última hora.
“Images 2.0 aporta un nivel sin precedentes de especificidad y fidelidad a la creación de imágenes. No sólo puede conceptualizar imágenes más sofisticadas, sino también realizar esas visiones de manera efectiva, capaz de seguir instrucciones, retener los detalles requeridos y representar elementos sutiles que a menudo arruinan los modelos de imágenes: texto pequeño, iconografía, elementos de interfaz de usuario, composiciones densas y límites de estilo sutiles, todo en resoluciones de hasta 2K”, dijo OpenAI en un comunicado de prensa.
Esta capacidad significa que crear imágenes no es tan rápido como escribir una pregunta en ChatGPT, pero producir algo tan complejo como un cómic de varios paneles solo lleva unos minutos.
Todos los usuarios de ChatGPT y Codex podrán acceder a Images 2.0 a partir del martes; Los usuarios pagos podrán producir resultados más avanzados. La empresa también creará gpt-image-2 API disponiblecon precios dependiendo de la calidad y resolución de la salida.
Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



