SenseTime, un chino La empresa de inteligencia artificial conocida por su tecnología de reconocimiento facial lanzó el martes un nuevo modelo de código abierto que, según afirma, puede generar e interpretar imágenes mucho más rápido que un modelo superior desarrollado por un rival estadounidense. El SenseNova U1 podría ayudar a la compañía a recuperar su ventaja después de perder su posición como uno de los principales actores en la carrera de desarrollo de la IA en China.
La ventaja de este modelo es su capacidad de “leer” imágenes sin traducirlas primero a texto, acelerando así el proceso y reduciendo la cantidad de potencia informática necesaria. “Todo el proceso de razonamiento del modelo ya no se limita al texto. El modelo también puede razonar con imágenes”, dijo Dahua Lin, cofundador y científico jefe de SenseTime, en una entrevista con WIRED.
Lin, que también es profesor de ingeniería de la información en la Universidad China de Hong Kong, afirmó que los modelos capaces de procesar imágenes directamente permitirán a los robots comprender mejor el mundo físico en el futuro.
Al igual que el último modelo insignia de DeepSeek, SenseTime dice que el U1 puede funcionar con un chip de fabricación china. “Varios fabricantes de chips nacionales chinos han terminado de optimizar la compatibilidad con nuestros nuevos modelos”, dijo Lin. El día del lanzamiento, 10 diseñadores de chips chinos, incluidos Cambricon y Biren Technology, anunciaron que su hardware es compatible con U1.
Esta flexibilidad es importante porque los controles de exportación de Estados Unidos restringen el acceso de las empresas chinas a los chips de inteligencia artificial más avanzados del mundo, especialmente los utilizados para capacitación, que en este momento son desarrollados principalmente por empresas occidentales como Nvidia. “Continuaremos fomentando la capacitación en más chips diferentes”, dijo Lin. Pero también reconoció que SenseTime “probablemente seguirá necesitando utilizar los mejores chips para garantizar nuestra velocidad de iteración”.
SenseTime está lanzando U1 de forma gratuita en Hugging Face y GitHub, lo que es otra señal de cómo la empresa china se está convirtiendo en el contribuyente más activo a la IA de código abierto.
SenseTime se fundó en 2014 y es líder mundial en visión por computadora, utilizada en aplicaciones como el reconocimiento facial y la conducción autónoma. Pero a medida que ChatGPT y otros sistemas de inteligencia artificial impulsados por el procesamiento del lenguaje natural se volvieron furor en la industria tecnológica, SenseTime comenzó a tener dificultades para obtener ganancias y se quedó atrás de las nuevas empresas chinas como DeepSeek y MiniMax.
SenseTime dijo que espera que el lanzamiento público de SenseNova-U1 para que cualquiera lo use le ayude a ponerse al día con los jugadores de IA nacionales y occidentales. Lin dijo que la compañía finalmente tomó la decisión el año pasado de centrarse en el código abierto debido a los comentarios útiles que recibió de los investigadores, lo que le permitió a la compañía iterar más rápidamente. “Hoy en día, ser de código abierto o de código cerrado no es el factor decisivo; la velocidad de iteración sí lo es”, explica Lin.
Ser de código abierto también ayuda a SenseTime a seguir colaborando con investigadores internacionales sin interferencias geopolíticas. La empresa ha sido sancionada repetidamente por el gobierno de Estados Unidos en los últimos años por acusaciones de que su tecnología de reconocimiento facial ayuda a fortalecer los sistemas de vigilancia utilizados para monitorear y detener a uigures y otros grupos minoritarios en la región china de Xinjiang. Como resultado, las empresas estadounidenses tienen prohibido invertir en SenseTime y vender determinadas tecnologías sin permiso. (SenseTime niega las acusaciones).
Ver claramente
En un informe técnico adjunto, SenseTime afirma que SenseNova-U1 produce imágenes de mayor calidad que todos los demás modelos de código abierto actualmente en el mercado. Su rendimiento es comparable al de los principales modelos de código cerrado en China, como Qwen de Alibaba y Seedream de ByteDance, pero aún está por detrás de líderes de la industria como GPT-Image-2.0, que se lanzó hace una semana.
Sin embargo, el principal punto de venta de este modelo es su capacidad para producir imágenes mucho más rápido que todos estos modelos. Se basa en una estructura técnica innovadora llamada NEO-Unify que SenseTime presentó a principios de este año.



