En un estudio de Harvard, la IA ofreció diagnósticos más precisos que los médicos de urgencias


Un nuevo estudio probó el rendimiento de grandes modelos de lenguaje en una variedad de contextos médicos, incluidos casos reales de salas de emergencia, donde al menos un modelo parecía ser más preciso que los médicos humanos.

investigalo publicado esta semana en Science y proviene de un equipo de investigación dirigido por médicos e informáticos de la Facultad de Medicina de Harvard y el Centro Médico Beth Israel Deaconess. Los investigadores dijeron que realizaron varios experimentos para medir cómo se comparan los modelos de OpenAI con los médicos humanos.

En un experimento, los investigadores se centraron en 76 pacientes que acudieron a la sala de emergencias de Beth Israel y compararon los diagnósticos dados por dos médicos tratantes con los diagnósticos generados por los modelos o1 y 4o de OpenAI. Estos diagnósticos fueron evaluados por otros dos médicos tratantes, que no sabían cuál era humano y cuál era IA.

“En cada punto de contacto de diagnóstico, el desempeño de o1 fue nominalmente mejor o equivalente a dos médicos tratantes y 4o”, dijo el estudio, y agregó que la diferencia fue “especialmente pronunciada en el primer punto de contacto de diagnóstico (clasificación inicial de emergencia), donde la información disponible sobre el paciente es la menor y la más urgente para tomar una decisión informada”.

En la Escuela de Medicina de Harvard presione soltar Con respecto al estudio, los investigadores enfatizaron que no “procesaron los datos en absoluto”: el modelo de IA recibió la misma información que estaba disponible en el historial médico electrónico en el momento de cada diagnóstico.

Con esa información, el modelo o1 logró ofrecer un “diagnóstico correcto o muy cercano” en el 67% de los casos clasificados, en comparación con un médico que tuvo un diagnóstico correcto o cercano en el 55% de los casos y otro médico que acertó en el 50% de los casos.

“Probamos el modelo de IA con casi todos los puntos de referencia y superó a los modelos anteriores y a nuestra línea de base médica”, dijo en un comunicado de prensa Arjun Manrai, director del laboratorio de IA de la Facultad de Medicina de Harvard y uno de los autores principales del estudio.

Evento tecnológico

San Francisco, California, EE.UU.
|
13-15 de octubre de 2026

Para ser claros, el estudio no afirma que la IA esté lista para tomar decisiones reales entre la vida y la muerte en la sala de emergencias. En cambio, los hallazgos demuestran “una necesidad urgente de realizar ensayos prospectivos para evaluar esta tecnología en entornos de atención al paciente del mundo real”.

Los investigadores también señalaron que solo estudiaron cómo se comportaban los modelos cuando se les proporcionaba información basada en texto, y que “las investigaciones existentes sugieren que los modelos de referencia actuales tienen un razonamiento más limitado que la entrada sin texto”.

Adam Rodman, médico de Beth Israel y también uno de los autores principales del estudio, dijo el guardián que actualmente “no existe un marco formal de responsabilidad” en torno al diagnóstico de IA, y que los pacientes todavía “quieren que los humanos los guíen en decisiones de vida o muerte (y) los guíen en la toma de decisiones de tratamiento difíciles”.

Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



Source link