Estos dos fundadores dejaron Goldman y Meta para crear inteligencia artificial de voz para un mercado que otros ignoraban.


La atención y el servicio al cliente son uno de los sectores más populares de la IA de voz en la actualidad. Pero crear productos que parezcan humanos y respondan sin demora ha resultado ser mucho más difícil en algunos mercados que en otros, y la mayoría de los principales actores no se crearon pensando en África y Medio Oriente.

AethexAIuna startup fundada el año pasado para cerrar esa brecha, ha recaudado $3 millones en financiación inicial liderada por 4DX Ventures, con la participación de Enza Capital, Dorm Room Fund, Mojo Ventures y Stanford GSB 26 Fund. Los inversores individuales incluyen profesores de Stanford, ejecutivos de telecomunicaciones e investigadores de inteligencia artificial de Anthropic.

En lugar de utilizar herramientas de orquestación existentes como Vapi y LiveKit, la compañía creó su propio modelo pequeño y capa de orquestación desde cero para manejar los dialectos locales de inglés, francés y árabe utilizados en sus mercados objetivo, una decisión que, como veremos más adelante, fue impulsada por las demandas específicas de operar en esas regiones.

La compañía también lanzó su plataforma para que las empresas prueben su tecnología y se registren en sus servicios, junto con una API y un SDK para que los desarrolladores experimenten con su modelo.

Esta startup fue fundada por Mariama Diallo y Ayooluwa Odemuyiwa. El director ejecutivo, Diallo, trabajó en Goldman Sachs y luego se unió a ModelML, respaldado por YC, como asociado de producto y crecimiento. El CTO Odemuyiwa se graduó en Caltech, trabajó en Meta y se matriculó en la Stanford Business School antes de cofundar la empresa. La pareja quería construir algo para los mercados emergentes y empezó a buscar oportunidades.

Empresas de todo el mundo se apresuran a adoptar herramientas de inteligencia artificial para automatizar algunas de sus operaciones. Pero no siempre funciona. En Egipto, un centro de llamadas automatizó la mayoría de sus llamadas, pero descartó el sistema debido a los malos resultados, descubrieron los fundadores. Algunos centros de soporte en África les dijeron que era difícil encontrar y contratar ingenieros para automatizar las llamadas al costo adecuado.

“La latencia y la inquietud que estábamos viendo en las llamadas automatizadas en estas regiones eran escandalosas. Si fuéramos un orquestador, probablemente tendríamos que usar un modelo grande alojado fuera de la región, lo que resultaría en una mayor latencia. Nos dimos cuenta de que para que esto funcionara, teníamos que usar un modelo muy pequeño y reducir la latencia en cada paso”, dijo Odemuyiwa a TechCrunch sobre la decisión de construir el modelo y la capa de orquestación propios de la compañía.

Los laboratorios de IA que implementan sus últimos modelos suelen gastar millones de dólares en entrenar y adquirir datos. AethexAI encontró una solución para ambos. En lugar de buscar el modelo más grande, decidieron que un modelo pequeño era suficiente para superar los problemas de latencia manteniendo la precisión y desarrollaron su propia serie Kora, con parámetros que oscilaban entre 300 millones y 1,7 mil millones. Eso es sólo una fracción del tamaño de un LLM, y ese es el punto.

Para entrenar el modelo, la startup utilizó grabaciones anónimas de socios del centro de llamadas. También enviaron discos duros a estaciones de radio de toda África para recopilar más datos de audio. Para mantener bajos los costos, crearon una red de estudiantes contribuyentes para anotar los datos y pronunciar los nombres locales. Como resultado, afirma la startup, ahora atiende más de 17.000 llamadas al día.

En el aspecto comercial, la empresa busca guiar a los clientes nuevos en la IA a través del proceso, ofreciendo demostraciones y talleres in situ para ayudarlos a identificar los mejores casos de uso para la automatización.

“Siempre les decimos a nuestros clientes que no podemos ser todo para todos en este momento. Todavía somos pequeños. Cuando comenzamos a hablar con una empresa, les pedimos que elijan el caso de uso que sea más importante para ellos al comenzar”, dijo Diallo.

La startup está abierta a trabajar en todas las industrias, pero actualmente, la mayoría de sus casos de uso involucran llamadas para cobro de deudas, activación de clientes o verificación KYC (Conozca a su cliente), un proceso estándar de verificación de identidad utilizado por bancos y empresas de telecomunicaciones. La compañía está contratando futuros ingenieros asignados por contrato para atender los mercados locales y crear asociaciones de canales con proveedores de telecomunicaciones para manejar teléfonos para llamadas de voz con IA. Una solución plug-and-play, afirmó, no funcionará aquí.

Walter Badoo, cofundador y socio director de 4DX Ventures, sostiene que los mercados de África y Oriente Medio son fundamentalmente diferentes de los mercados a los que la mayoría de las empresas de IA de voz pretenden servir.

“Las empresas de África y Oriente Medio procesan alrededor de tres veces el volumen de llamadas en comparación con las empresas de Occidente, ya que la voz sigue siendo el canal dominante para la interacción con el cliente”, afirmó. “Los sistemas existentes creados para los mercados occidentales se caracterizan por una infraestructura de GPU de alta gama, entornos de habla estándar en inglés y europeo, y flujos de trabajo empresariales comunes a los EE. UU. y Europa. Esto crea una brecha real cuando las empresas necesitan sistemas que manejen dialectos, conmutación de códigos y patrones de habla informales, y que se ajusten a la infraestructura de telefonía existente y a sus precios reales”.

En otras palabras, aunque empresas como ElevenLabs, Deepgram, Sierra y Cognigy se están expandiendo globalmente a un ritmo rápido, los mercados en los que se construyen y los mercados en los que ingresan no siempre son los mismos. Empresas emergentes como AethexAI creen que estas brechas (modelos especializados en dialectos locales, asociaciones en el campo, infraestructura construida para la región) representan oportunidades de mercado que estos gigantes no pueden cerrar.

Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



Source link