El Gemma 4 12B es casi tan capaz como la versión con 26 mil millones de parámetros.
Crédito: Google
Google dice que el nuevo modelo es capaz de realizar razonamientos complejos de varios pasos y flujos de trabajo de agentes que anteriormente requerían variantes de Gemma más grandes. A pesar de la menor cantidad de parámetros, el Gemma 4 12B viene con un nuevo diseñador de Predicción de tokens múltiples (MTP), que utiliza ciclos de procesamiento no utilizados para calcular probabilidades de tokens futuros. El resultado es una mayor velocidad y eficiencia. Google ha lanzado versiones MTP opcionales de otros modelos Gemma 4, pero este es el primer modelo que tiene MTP.
El Gemma 4 12B también es más eficiente gracias a un nuevo enfoque multimodal. La familia Gemma 4 es esencialmente multimodal y acepta texto, audio o imágenes como entrada. La mayoría de los modelos de IA de próxima generación, incluidas otras variantes de Gemma 4, utilizan codificadores especiales para procesar entradas que no son de texto y pasar esos datos al LLM. Esto funciona bastante bien, pero aumenta la latencia y el uso de memoria.
Con el nuevo modelo de rango medio, Google ha implementado un módulo de incrustación simplificado para la visión, que presenta multiplicación de matriz única e incrustación posicional, lo que permite pasar datos a LLM con conciencia espacial precisa. Esto elimina la necesidad de voluminosos codificadores intermedios. Para el audio, no hay ninguna codificación. Los desarrolladores desarrollaron un método para proyectar señales de audio sin procesar en los mismos vectores utilizados para los tokens de texto.
Si desea ver los nuevos modelos Gemma 4, puede acceder a ellos sin descargarlos a través de herramientas como Estudios LM, Galería de borde de IA de Googley mucho más. Pero el objetivo del Gemma 4 12B es que puedes ejecutarlo localmente y a tu propio ritmo. Si tiene RAM, los pesos de los modelos están disponibles para descarga inmediata. Kaggle Y abrazando la cara. Poco menos de 18 GB.



