Se acercan las facturas de tokens: la industria está luchando por gestionar los costos desbocados de la IA


En todos los sectores, las empresas están empezando a oponerse al precio de la IA. Uber gastó todo su presupuesto de codificación de IA para 2026 en abril. Microsoft lo retiró licencia Claude Code del desarrollador unos meses después de activarla. Un empleado de Priceline le dijo a TechCrunch que las renovaciones rutinarias del contrato de Cursor cuestan entre 4 y 5 veces más.

Aunque el precio por token ha caído, el impulso para una mayor adopción de la IA y el creciente número de agentes autónomos ha impulsado el consumo de tokens. Las empresas que a principios de 2025 estaban desperdiciando dinero en suscripciones de todo lo que pueda comer ahora están luchando por entender a dónde va su dinero, reducir el gasto y descubrir si pueden recuperar algo de retorno de la inversión con lo que queda de su presupuesto.

Mientras tanto, el mercado se perfila para encontrarlos allí. Las empresas emergentes, los proveedores establecidos y los nuevos organismos de normalización están compitiendo para brindar a las empresas las herramientas y el lenguaje para realizar un seguimiento de sus gastos.

“Hace seis meses, estuve hablando con clientes y todo se trataba de ‘¿Qué puede hacer? ¿Es lo suficientemente bueno?'”, dijo Alexander Embricos, director de OpenAI, a TechCrunch en un evento en la ciudad de Nueva York esta semana. “Nuestras conversaciones de hoy nunca fueron sobre eso. Ahora las conversaciones giran en torno a, ‘oye, estamos gastando mucho dinero. ¿Qué visibilidad tienes? ¿Qué capacidades de auditoría tienes? ¿Qué controles de tokens tienes? ¿Qué tan eficiente es tu modelo?'”

Es en este contexto que la Fundación Linux anunció esta semana planes para la Fundación Tokenomics, un nuevo organismo de estándares que apunta a aplicar la misma disciplina de costos a los tokens de IA que FinOps aplica al gasto en la nube.

“En abril y mayo, comencé a escuchar de las empresas: ‘Dios mío, nuestro presupuesto es el triple de nuestro presupuesto total de tokens para 2026 y solo es abril'”, dijo a TechCrunch JR Storment, director ejecutivo de la Fundación FinOps, un proyecto de la Fundación Linux. “Comenzamos a escuchar sobre la crisis que nos aguardaba y toda la conversación pasó de “tokenmaxxing” y “ir rápido” a “necesitamos barreras de seguridad, ¿cómo las controlamos?”

Los llamados que se escuchan en todo el mundo de la tecnología responden a fuertes demandas de los directores ejecutivos que están presionando a sus equipos para que utilicen los mejores modelos y actúen con rapidez, sin sacrificar costos. Los nuevos modelos lanzados en noviembre, como Claude Opus 4.5 de Anthropic, GPT-5.1 de OpenAI y Gemini 3 Pro de Google, trajeron mejoras significativas a las herramientas de los agentes, que han duplicado el consumo. Así lo hace una empresa reportado Se encuentra con la factura de Claude por 500 millones de dólares después de olvidarse de establecer límites de uso para los empleados.

“Es como una epidemia de cocaína”, dijo Chris Reed, director senior de finanzas de TI en Priceline, señalando que la compañía ha comenzado a limitar los tokens a ciertos grupos. “Te dejan probarlo para que te enganches y ahora estás apegado a ello”.

Vitaly Gordon, director ejecutivo de la plataforma de operaciones de ingeniería Faros AI, dijo que recientemente habló con un CTO que le dijo: “Uno de mis ingenieros gastó 40.000 dólares en tokens el mes pasado, y realmente no sé si debería detenerlo o debería ir y decirle a otras personas que sean como él”.

una marcha encuesta by Faros descubrió que entre 20.000 desarrolladores, la producción aumentó, al igual que los errores y las reescrituras. Jellyfish, una plataforma de gestión de ingeniería, también descubrió que los ingenieros que usaban más tokens tenían el doble de productividad que aquellos que usaban menos IA, pero gastaban 10 veces más tokens para llegar allí.

Nicholas Arcolano, jefe de investigación de Jellyfish, dijo a TechCrunch por correo electrónico que el gasto en IA aumentó en gran medida debido a las características de los agentes, y que el consumo por desarrollador aumentó aproximadamente 18,6 veces en nueve meses. En general, estas estadísticas hacen que los argumentos a favor de la productividad sean aún más sombríos que el gasto esperado.

“Que el gasto extremo dé sus frutos depende del valor comercial final del código entregado (por ejemplo, los ingresos), que la mayoría de las empresas aún no pueden medir”, dijo Arcolano.

Al menos uno de los problemas de medición es la escala actual de uso de la IA.

“El seguimiento de los costos de la nube es una cuestión de cientos de millones de filas de datos por mes”, dijo Storment. “El seguimiento de los costos de los tokens es una cuestión de billones de filas de datos por mes. No puedes simplemente conectarlos a una hoja de cálculo o incluso a cualquier herramienta básica. Tienes que repensar fundamentalmente tus herramientas, especificaciones y sistemas de contabilidad para hacerlo”.

En Priceline, Reed ya está viendo una diferencia. Notó problemas entre el uso informado por los proveedores y los datos internos de Priceline.

“Comencé mi carrera en la gestión del gasto en telecomunicaciones y vi las mismas similitudes, desde las telecomunicaciones hasta la nube y la inteligencia artificial”, dijo. “Cada vez que introduces algo nuevo, es vulnerable a errores de facturación, auditorías y oportunidades de optimización”.

Está empezando a formarse un mercado para abordar este problema. Hay empresas exclusivas, como Pay-i, que rastrean, miden y optimizan los costos y el rendimiento de las inversiones en GenAI. Mientras tanto, la versión paga permite a los desarrolladores realizar un seguimiento de los costos, medir el uso y cobrar a los usuarios en función del valor real, no de las tarifas de suscripción.

Luego están empresas como Jellyfish, Waydev y Faros AI, todas las cuales brindan monitoreo de agentes de IA para demostrar el retorno de la inversión de las herramientas de desarrollo. Storment dice que la mayoría de los 180 proveedores de la Fundación FinOps se están inclinando hacia esta área.

Las empresas con distribuciones existentes también están agregando nuevas funciones para aprovechar este nuevo mercado. La rampa acaba de mudarse a Gestión del gasto en IA; perro de datos Y Nueva reliquia ha implementado servicios como gestión de costos en la nube, observabilidad a nivel de token y monitoreo de GPU. En FinOps de la próxima semana

Tiffany Luck, socia de NEA, cree que la eficiencia y la observabilidad de los tokens probablemente se agregarán en la “capa de aprovechamiento o aplicación”. Señaló a Factory, una startup que fabrica agentes de IA para empresas, que esta semana lanzado Modelo de enrutador que selecciona automáticamente el modelo adecuado para cada tarea.

Gordon espera que los laboratorios fronterizos y otros proveedores de modelos adopten una optimización al estilo OpenRouter para dirigir las consultas a los modelos más baratos, una tendencia que ya se está reflejando en las facturas de la empresa de Claude.

“El estado financiero de cuánto gastó en Anthropic, incluso si llama al modelo Opus, parte del gasto será en Sonnet o Haiku, porque son lo suficientemente inteligentes como para hacerlo”, dijo Gordan. “Creo que será más importante”.

Pero todas estas herramientas se crearon sin un lenguaje común o una definición común de cuánto cuesta un token, cuánto gana y cómo comparar el gasto entre proveedores. Aquí es donde la Fundación Tokenomics espera resultar útil.

La Fundación está elaborando una definición canónica y un marco para la “tokenomía”; estándares abiertos, especificaciones y métricas para el uso y facturación de tokens de IA; así como nuevas métricas para la economía de la IA, como el coste por inteligencia o los tokens por vatio. También planea determinar métricas sobre la efectividad de la fábrica de tokens y la eficiencia del consumo. El grupo planea un lanzamiento oficial en julio y anunciará más miembros en su conferencia FinOps X la próxima semana.

“La economía de los tokens es inherentemente más abstracta y opaca que cualquier cosa que hayamos logrado antes a esta escala”, dijo Nishant Gupta, jefe de disponibilidad de Salesforce, en un comunicado. “Esto requiere fortalezas operativas diferentes a las que la industria ha creado para la nube”.

Dicho esto, Goldman Sachs proyecto El uso global de tokens se multiplicará por 24 para 2030. Las empresas que ya superan el presupuesto necesitan una solución ahora, y aún faltan meses para la primera implementación de la base.

“Puede que hayamos inventado la máquina de vapor, pero todavía no hemos inventado la línea de montaje”, dijo Gordon.

Según Arcolano, la medida inteligente es una adopción amplia y moderada.

“El mejor retorno de la inversión proviene de pasar de un uso bajo a un uso medio a medio, sin impulsar a los usuarios habituales a subir más”, afirmó.

Russell Brandom y Tim Fernholz contribuyeron a este informe.

Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



Source link