El desarrollo de la IA se basa en un supuesto básico: los modelos más grandes serán más potentes y los modelos más potentes ganarán. Ahora, la industria aprenderá qué sucede cuando esos supuestos comienzan a violarse.
Los costos de instalación han presionado a los usuarios a buscar nuevamente modelos más pequeños y baratos. Este modelo de compra consciente de los costos es nuevo y aún no está claro cómo afectará a la industria, pero el impacto probablemente será significativo.
Una predicción, bien expresada por el cofundador de Coinbase, Brian Armstrong, es que esto dará como resultado que la mayoría de las tareas se trasladen a modelos más baratos.
“La demanda de inteligencia es casi ilimitada, pero el 80% de las cargas de trabajo se ejecutarán en modelos que son un 99% más baratos dentro de 12 a 18 meses”, Armstrong escribe en x. “El 20% de las cargas de trabajo seguirán ejecutándose en los modelos de última generación que priorizan el aumento del coeficiente intelectual”.
Es difícil exagerar los cambios significativos que se producirían en la industria de la IA si las predicciones de Armstrong se hicieran realidad.
Anteriormente, la mayoría de las empresas de IA competían en calidad, lo que significaba que tenían que elegir los modelos más avanzados disponibles. Si estos trabajos pueden realizarse con modelos más baratos sin afectar la calidad, esto podría significar un cambio importante en la economía de la IA. Y, lo que es más importante, la mayor parte de los ahorros se canalizarán a grandes laboratorios, lo que supondrá un golpe financiero para OpenAI y Anthropic mientras se dirigen hacia una IPO.
Esto tiene el potencial de generar cambios importantes en la industria y depende de una pregunta fundamental: ¿están las empresas preparadas para pasar a un modelo más pequeño?
Las pruebas iniciales muestran que, cuando el sistema está configurado correctamente, se pueden utilizar modelos más baratos sin sacrificar la calidad. En pruebas recientes realizadas por la herramienta legal de inteligencia artificial Harvey, la empresa pudo reducir los costos de inferencia tres veces sin comprometer la calidad. Prueba, llevado a cabo en asociación con la plataforma de inferencia Fireworks AI, combinando Claude Opus y GLM 5.1 Fireworks, y cambiando a Opus para las tareas más intensivas. El resultado es una carga mucho menor en términos de tiempo del servidor y costos generales.
“La calidad es lo primero, y en el ámbito legal, ese siempre será el caso”, dijo a TechCrunch el cofundador de Harvey, Gabe Pereyra, refiriéndose a los servicios legales de inteligencia artificial que brinda su startup. “Sin embargo, la definición de calidad continúa evolucionando desde simplemente utilizar el modelo más potente para todo hasta utilizar el mejor modelo que proporcione las respuestas correctas de la manera más eficiente”.
Esta tendencia a menudo se enmarca en términos de grandes laboratorios versus el modelo chino o laboratorios abiertos, pero esto pasa por alto el punto más importante. La verdadera brecha no está entre los modelos propietarios y abiertos; está entre el modelo grande y el modelo pequeño. Puede ahorrar dinero cambiando de GPT-5.5 a V4 Flash DeepSeek, pero cambiar a GPT-5.4-mini también podría funcionar.
Hay una guerra de precios activa entre las inferencias internas de los grandes laboratorios y los modelos ponderados abiertos presentados de forma independiente. Para la cuestión más amplia de lo pequeño versus lo grande, no importa qué modelo pequeño gane.
Todo esto puede parecer obvio (por supuesto, no se debe utilizar más computación de la necesaria), pero va en contra del enfoque de escala primero que dominó la industria hasta hace poco. Inspirado por lección amargaLos laboratorios se han esforzado mucho en entrenar los modelos con mayor uso intensivo de computación, superando así los límites de lo que pueden hacer los modelos de IA. Dado que los precios están fuertemente subsidiados por los inversores, los clientes no tienen motivos para elegir otra cosa que las opciones más avanzadas.
Con el aumento de los precios de los tokens y la desaceleración de los subsidios, los usuarios enfrentan presiones de costos por primera vez. No sabemos si estas nuevas presiones de costos realmente empujarán a los usuarios empresariales hacia modelos más pequeños. Podrían ahorrar fácilmente haciendo menos llamadas, utilizando menos contexto o simplemente renunciando a la implementación menos prometedora.
Pero si resulta que la mayoría de las implementaciones pueden funcionar bien en modelos más pequeños, esto podría reducir la demanda cada vez mayor de inferencia y plantear nuevas preguntas sobre cómo justificar el costo de entrenar modelos de frontera.
Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.


