Síguenos en :
LO MAS RECIENTE


24 noviembre 2025

Los médicos aún superan a la IA en razonamiento clínico

 

La Inteligencia Artificial (IA) puede aprobar exámenes médicos de opción múltiple, pero aún tiene dificultades cuando se enfrenta a información clínica cambiante.

El servicio de neurología de la Universidad de Alberta, evaluó qué tan bien los modelos de lenguaje grandes realizan el razonamiento clínico: la capacidad de clasificar los síntomas, solicitar las pruebas correctas, evaluar nueva información y llegar a la conclusión correcta sobre lo que le pasa a un paciente.

Descubrió que los modelos avanzados de IA tienen dificultades para actualizar sus juicios en respuesta a información nueva e incierta, y a menudo no reconocen cuándo cierta información es completamente irrelevante. De hecho, algunas mejoras recientes diseñadas para optimizar el razonamiento de la IA han agravado este problema de exceso de confianza.

Todo esto significa que, si bien la IA puede obtener buenos resultados en los exámenes de licencia médica, ser un buen médico implica mucho más que recordar hechos instantáneamente.

El uso de IA en medicina ha crecido a pasos agigantados en los últimos cinco años (desde redactar notas médicas hasta buscar patrones en datos de enfermedades y asesorar a los médicos sobre qué buscar en imágenes médicas ), pero aún no está lista para reemplazar a los médicos cuando se trata de dar un diagnóstico.

Los investigadores se basaron en la educación médica para desarrollar su prueba de referencia que mide esta flexibilidad en el razonamiento clínico para modelos de IA. Su herramienta, llamada concor.dance , se basa en pruebas de concordancia de guiones, un método común para evaluar las habilidades de los estudiantes de medicina y enfermería.

En la educación médica, las pruebas de concordancia de guiones otorgan puntos a los estudiantes por lo bien que realizan este razonamiento humano matizado en comparación con los expertos más experimentados en cada campo.

Probaron 10 de los modelos de IA más populares de Google, OpenAI, DeepSeek, Anthropic y otras empresas. Si bien los modelos, en general, tuvieron un rendimiento similar al de los estudiantes de medicina de primer o segundo año, a menudo no alcanzaron el estándar establecido por los residentes de último año o los médicos asistentes.

En las pruebas de concordancia de guiones, aproximadamente el 30 % de las veces, la nueva información proporcionada en la pregunta es una pista falsa que no modifica el diagnóstico ni el plan de tratamiento. Por ejemplo, podría descubrir que nuestro hipotético paciente con dolor torácico se golpeó el dedo del pie la semana pasada. Probablemente no sea relevante para nuestro caso, pero los modelos de IA no lo detectaron con éxito. En cambio, los modelos más avanzados intentaron explicar por qué los hechos irrelevantes eran relevantes, arruinando el diagnóstico.

Curiosamente, los estudiantes de medicina que obtienen buenos resultados en exámenes de opción múltiple no siempre obtienen el mismo rendimiento en la concordancia de guiones, ya que se trata de una habilidad muy diferente. Eso no significa que los modelos de IA no puedan mejorarse para que funcionen mejor. De hecho, la tecnología ha llegado para quedarse, por lo que es responsabilidad de investigadores como él seguir esforzándose por mejorarla.

Tenemos la responsabilidad moral de utilizar la mejor tecnología disponible, ya sea un nuevo tipo de resonancia magnética, un nuevo aparato de radiación o un nuevo tipo de instrumento quirúrgico. Con el tiempo, esa nueva tecnología podría convertirse en una herramienta de razonamiento clínico.

La investigación fue publicada en el New England Journal of Medicine .


No hay comentarios :


PUBLICACIONES QUE LE PUEDEN INTERESAR


ESTADÍSTICAS

Días en linea
Publicaciones
Comentarios

ARCHIVO GENERAL

Publicaciones por Mes

TOTAL DE VISITAS