Los investigadores y laboratorios de IA han avanzado rápidamente en la evaluación de modelos de IA para todo. seguridad y cumplimiento de lamer y alineación. Pero parece que las empresas y los desarrolladores se enfrentan a una nueva necesidad específica: garantizar que sus sistemas de IA funcionen según lo previsto para sus productos o servicios específicos.
En un esfuerzo por simplificar el proceso de prueba, Microsoft lo anunció el martes. CONFIRMARabreviatura de puntuación adaptativa basada en especificaciones para pruebas de evaluación y regresión.
El marco de código abierto, dice Microsoft, facilita la evaluación del comportamiento de la IA de aplicaciones específicas mediante el uso de IA para convertir descripciones de objetivos, políticas o comportamientos deseados en lenguaje natural de alto nivel en pruebas integrales y escalables que pueden investigarse.
ASSERT toma una descripción en lenguaje sencillo del comportamiento y las políticas esperadas de un modelo de IA, lo convierte en un conjunto estructurado de comportamientos aceptables e inaceptables, genera escenarios de problemas y casos de prueba, los ejecuta contra el sistema objetivo y evalúa los resultados. También puede registrar la ruta que toma un sistema de IA, incluidas acciones intermedias y llamadas a herramientas, para que los desarrolladores puedan examinar dónde ocurren las fallas.
Los desarrolladores también pueden proporcionar contexto, herramientas y restricciones del sistema, si desean personalizar aún más lo que se incluye en la evaluación.
Por ejemplo, los desarrolladores pueden especificar que un agente de IA de investigación de documentos no debe enviar correos electrónicos a personas ajenas a la empresa y debe limitar la información confidencial solo a ejecutivos de nivel C y proporcionar un breve resumen teniendo en cuenta el contexto anterior. ASSERT utilizará esas reglas para generar casos de prueba que verifiquen si el sistema sigue esas reglas continuamente.
Este marco, según Microsoft, llena los vacíos que las evaluaciones más amplias y generales no pueden cuando los modelos de IA deben comportarse de acuerdo con el contexto, las políticas y las herramientas de una aplicación o producto.
“Una de las cosas que aprendimos es que la evaluación es fundamental para tomar buenas decisiones”, dijo. sara pájaroDirector de Producto de IA Responsable en Microsoft. “Porque si no se comprende el comportamiento de un sistema de IA, es muy difícil saber si cumple con los estándares de su organización… Lo que descubrimos es que si realmente se quiere tener un sistema confiable, hay que evaluar más dimensiones que sean específicas de la aplicación”.
Bird dijo que ASSERT se puede utilizar para evaluar sistemas mientras se construyen, después de su implementación e incluso para un monitoreo continuo.
Este lanzamiento se produce en medio de cambios graduales pero más amplios en la industria de la IA. A medida que los modelos se vuelven más capaces, los investigadores se centran en pruebas iterativas y comprobaciones de regresión. CASCO Stanford, AIluminate de MLCommonsy grupos de evaluación similares METROS lanzó puntos de referencia para medir cómo se comporta el modelo en diferentes condiciones.
Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



