El argumento a favor de la IA médica especializada es intuitivo: un modelo entrenado únicamente con literatura curada y revisada por pares debería superar a un chatbot de propósito general entrenado con la internet abierta. Un ensayo aleatorizado y ciego publicado en Neurosurgery puso a prueba esa premisa de forma directa, y el resultado es un útil jarro de agua fría para la tesis del dominio específico.
Investigadores de NYU Langone Health desarrollaron CNS-Obsidian, un modelo de visión-lenguaje ajustado (fine-tuned) a partir de un modelo abierto de 34 mil millones de parámetros con 23,984 artículos de revistas de neurocirugía, que produjeron 78,853 figuras y leyendas y 263,064 muestras de entrenamiento. Luego lo enfrentaron a un endpoint de GPT-4o conforme a HIPAA como copiloto diagnóstico, con neurocirujanos cegados y aleatorizados a uno u otro modelo tras las consultas con pacientes entre agosto y noviembre de 2024.
El hallazgo principal: el especialista no ganó. En los criterios de valoración primarios del ensayo, CNS-Obsidian obtuvo valoraciones positivas de utilidad en el 40.62% de los casos frente al 57.89% de GPT-4o (P = .230), y ambos modelos incluyeron el diagnóstico correcto en aproximadamente el 60% de los casos (59.38% vs 65.79%, P = .626). Ninguna de las diferencias fue estadísticamente significativa, pero ninguna favoreció al modelo desarrollado internamente.
El cuello de botella puede ser la interfaz, no los pesos
El dato más llamativo es el uso. De 959 consultas totales durante la ventana del ensayo, los clínicos invocaron el copiloto en apenas 70 —una tasa de utilización del 7.3%—, dejando solo 32 casos de CNS-Obsidian y 38 de GPT-4o para evaluar. Una herramienta a la que los cirujanos recurren en menos de uno de cada trece encuentros aún no forma parte del flujo de trabajo, sea cual sea el modelo que esté detrás.
La baja utilización clínica sugiere que las interfaces de chatbot pueden no alinearse con los flujos de trabajo de los especialistas.
Los datos de benchmark complican aún más la historia. CNS-Obsidian esencialmente igualó a GPT-4o en preguntas sintéticas generadas por modelos (76.13% vs 77.54%, P = .235), pero se desplomó en las escritas por humanos (46.81% vs 65.70%, P < 10⁻¹⁵) —una brecha que sugiere que el especialista aprendió a responder preguntas con la forma de sus propios datos de entrenamiento, no las más desordenadas que los clínicos realmente formulan.
El planteamiento de los autores es mesurado: un modelo mucho más pequeño y barato puede acercarse al rendimiento de frontera en un dominio acotado, y el pipeline de entrenamiento ofrece una plantilla transparente para otras especialidades. Esa es una contribución real. Pero asociación no es impacto, y con esta evidencia el argumento para reemplazar un modelo de frontera por uno a medida —y el argumento más profundo de que un chatbot sea siquiera la interfaz adecuada— sigue sin demostrarse.