El modelo de IA Gemma 4 de Google obtiene un aumento de velocidad 3 veces mayor al predecir tokens futuros

Google lanzó el modelo abierto Gemma 4 esta primavera, prometiendo nuevos niveles de potencia y rendimiento para la IA local. El enfoque de Google hacia la IA podría ser aún más rápido con el lanzamiento Predicción de múltiples tokens (MTP) diseñadora para Gemma. Google dice que el modelo experimental aprovecha una forma de decodificación especulativa para adivinar tokens futuros, lo que puede acelerar la generación de tokens en comparación con la forma en que el modelo genera sus propios tokens.

Los últimos modelos de Gemma se basan en la misma tecnología subyacente que impulsa la IA Gemini líder de Google, pero están adaptados para ejecutarse localmente. Gemini está optimizado para ejecutarse en los chips TPU personalizados de Google, que operan en grandes grupos con interconexiones y memoria súper rápidas. Un acelerador de IA de alta potencia puede ejecutar los modelos Gemma 4 más grandes con total precisión, y la cuantificación permitirá que funcione en GPU de consumo.

Gemma permite a los usuarios jugar con la IA en su hardware en lugar de compartir todos sus datos con sistemas de IA en la nube de Google u otros. Google también cambió la licencia Gemma 4 a Apache 2.0, que es mucho más permisiva que la licencia exclusiva de Gemma que Google utilizó para versiones anteriores. Sin embargo, existen limitaciones inherentes al hardware que tiene la mayoría de las personas para ejecutar modelos de IA locales. Ahí es donde entra en juego el MTP.

Los LLM como Gemma (o Gemini) generan tokens de forma autorregresiva, es decir, generan un token a la vez basándose en tokens anteriores. Cada uno requiere tanto trabajo computacional como el anterior, independientemente de si el token es solo una palabra de relleno en el resultado o una información importante en un problema lógico complejo.

El problema de lanzar su propia IA es que la memoria de su sistema puede no ser muy rápida en comparación con la memoria de gran ancho de banda (HBM) utilizada en el hardware empresarial. Como resultado, el procesador dedica mucho tiempo a mover parámetros de VRAM a la unidad de cómputo para cada token y no se utilizan ciclos de cómputo durante este proceso.

Gemma 4 26B en NVIDIA RTX PRO 6000. Inferencia estándar (izquierda) frente a MTP de Drafter (derecha) en tokens por segundo. Misma calidad de salida, la mitad del tiempo de espera.

MTP aprovechó ese tiempo para evitar modelos pesados ​​y producir tokens especulativos con diseñadores ligeros. Si bien el diseño del modelo es más pequeño (solo 74 millones de parámetros en Gemma 4 E2B), también está optimizado de varias maneras para acelerar la generación de tokens especulativos. Por ejemplo, el diseñador comparte la caché de valores-clave (esencialmente la memoria activa LLM) para que no sea necesario volver a calcular los contextos en los que ya ha trabajado el modelo principal. Los diseñadores de E2B y E4B también utilizan técnicas de decodificación dispersas para reducir el conjunto de posibles tokens.



Source link