¿La búsqueda de la informática con IA ha descubierto el próximo Cerebra?


La demanda de computadoras para ejecutar modelos de IA está creciendo, pero hay dos obstáculos importantes que cualquiera en este negocio debe superar: conseguir los chips correctos y llevarlos a los centros de datos donde pueden comenzar a generar ingresos.

General Compute, una nueva inferencia de neonube, una empresa que alquila potencia de procesamiento de IA, especializándose en la fase en la que los modelos se ejecutan y responden a los usuarios en lugar de ser entrenados, tiene respuestas a preguntas que explican hacia dónde se dirige el ecosistema de IA. Esas respuestas le ayudaron a recaudar una ronda inicial de 15 millones de dólares con una valoración posterior al dinero de 60 millones de dólares, liderada por FUSE VC con la participación de Carya Venture Partners y Village Global Ventures.

Primero, ¿cuál es el chip correcto? La demanda de GPU ha aumentado rápidamente, pero es de conocimiento común que las GPU no son los chips más adecuados para ejecutar modelos de IA una vez entrenados. La fase de la IA en la que el modelo genera respuestas activamente tiene requisitos computacionales diferentes a los del entrenamiento, y se están diseñando nuevas clases de chips específicamente para esos modelos. La transacción Groq de Nvidia por 20 mil millones de dólares en diciembre y la IPO de Cerebras por 57 mil millones de dólares la semana pasada muestran el camino.

Con capacidad limitada en ambas empresas, los cofundadores de General Compute, el director ejecutivo Finn Puklowski y el director de tecnología Jason Goodison, encontraron otra opción. Recurrieron a chips personalizados fabricados por SambaNova, un fabricante de chips respaldado por Intel centrado en la inferencia de la que no se habla mucho en Silicon Valley.

Eso puede cambiar cuando SambaNova lance sus nuevos chips este año. La arquitectura es más flexible y utiliza más memoria para almacenar contexto durante los cálculos de inferencia, y SambaNova afirma que su rendimiento supera no sólo a las GPU sino también a otros chips personalizados fabricados por Groq o Cerebras. Puklowski dijo que los nuevos chips producirán entre 600 y 700 tokens por segundo, en comparación con los aproximadamente 250 tokens por segundo de las GPU.

General Compute ha encargado chips SN50 de la compañía por valor de 300 millones de dólares y dice que será la primera neonube en implementarlos.

El chip también ayuda a resolver un segundo gran problema (dónde colocarlo) para General Compute: está enfriado por aire, no por agua, y consume menos energía, por lo que puede instalarse en instalaciones de centros de datos existentes sin invertir en nueva infraestructura.

Puklowski está buscando acuerdos de colocación (acuerdos en los que General Compute instala su hardware en las instalaciones de otra persona) no solo con proveedores de centros de datos, sino también con mineros criptográficos que buscan reutilizar su infraestructura porque el costo de producir bitcoins a menudo excede su precio.

General Compute lanzó su oferta en la nube la semana pasada, afirmando que ya es el MiniMax 2.7 de ejecución más rápida, un poderoso LLM de código abierto.

Joe Hasselmann es un inversor de riesgo que se sumó al auge de la inferencia cuando invirtió en Groq en 2021. Este año, lanzó un nuevo fondo, Evercrest Capital Partners, centrado en el espacio de la inteligencia artificial, e hizo de General Compute su primera inversión. Hassleman considera que la asociación de SambaNova con General Compute es paralela a la relación de Coreweave con Nvidia, y con la combinación de Groq de fabricación de chips con las ofertas de nube del primero.

“Necesitan una combinación saludable de clientes que coloquen sus chips en un entorno que tendrá un alto crecimiento”, dijo Hassleman. “Así como General Compute apuesta por SambaNova, SambaNova apuesta por General Compute”.

La pregunta es qué tipo de arquitectura informática proporcionará el mayor valor en el futuro de la IA. La inferencia en la nube es una apuesta implícita en un mundo con muchos modelos y agentes, donde ningún proveedor domina y la velocidad y el costo de la inferencia son variables competitivas clave. Considere los $113 millones de Serie B recaudados para OpenRouter esta semana, lo que refleja la capacidad de la compañía para ofrecer a los clientes acceso a una variedad de modelos para optimizar su gasto en tokens.

La velocidad importa en los cálculos, el precio y las capacidades. Puklowski quiere convertir una carga de trabajo de una hora para un agente de codificación en una tarea de cinco o diez minutos, y hacer que los agentes de audio para el servicio al cliente, que necesitan inferencias más rápidas para comunicarse de manera efectiva, sean más económicos.

“Si usa ChatGPT y le proporciona 50 tokens por segundo, eso sigue siendo mucho más rápido de lo que podemos leer”, dijo Puklowski a TechCrunch, “Ahora que las cosas han pasado de un agente a otro, donde los agentes están leyendo en nuestro nombre o haciendo ping a la base de datos, tienen que trabajar más rápido”.

Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



Source link