Según Doshi, el equipo realizó muchas mejoras en el entrenamiento previo con Gemini 3.5 Flash, pero fueron los conocimientos adquiridos a partir de cómo los desarrolladores utilizaron el modelo Gemini lo que realmente valió la pena.
“Con la capacitación posterior, realmente comenzamos a desbloquear algo de valor a partir de los comentarios que recibimos de los usuarios, por ejemplo, de Antigravity”, dijo Doshi. “Eso es realmente lo que estás viendo en términos de rendimiento del código y rendimiento del uso de herramientas. Y luego, la esperanza es que continúes viendo un cambio radical en el que 3.5 Pro mejorará y el próximo Flash se unirá al rendimiento Pro con esa serie”.
Google se está centrando en generar código con un nuevo modelo, que es el punto de vista central del agente para la IA. Las pruebas de Terminal Bench y SWE-Bench Pro mostraron mejoras sustanciales: el 3.5 Flash superó a los modelos Flash más antiguos y mostró mejoras pequeñas pero mensurables sobre el Gemini 3.1 Pro. Sus puntuaciones están a la par con el GPT 5.5 de OpenAI, mucho más grande y caro.
Un obstáculo importante en los flujos de trabajo de los agentes es cómo los modelos generativos pueden utilizar interfaces diseñadas para humanos. Este no es un problema fácil de resolver, afirmó Doshi. “Ciertas cosas como los controles de UI son costosas porque el modelo tiene que buscar en la página, tiene que saber dónde hacer clic y tiene que actuar a través de múltiples pasos. Creo que Flash puede hacer esto bien debido a la combinación de calidad y costo”.
La evaluación de la IA de Google también muestra esta mejora. Entre el conjunto actual de puntos de referencia de Google se encuentra OSWorld-Verified, que prueba cómo los modelos manejan tareas comunes en entornos informáticos reales. Esto es similar a la mejora de la codificación. El Gemini 3.5 Flash supera sustancialmente a los modelos Flash más antiguos e incluso es un poco más rápido que el Gemini 3.1 Pro. Básicamente está vinculado a GPT 5.5.
El nuevo modelo Flash de Google es, nuevamente, ligeramente mejor que el Pro de última generación.
Crédito: Google
Gemini 3.5 Flash se lanzó internamente en Google y Doshi señala que está teniendo un gran impacto. “Tenemos un conjunto de métricas internas que hemos evaluado y que miden cómo codifican los empleados de Google, por lo que analizamos nuestra propia base de código y qué tan bien se desempeña el modelo en él”, dijo Doshi. “Y se puede ver un gran salto entre la versión 3.1 Pro y la versión 3.5 Flash”.



