La AMIE de Google funcionó con 100 pacientes reales y nunca tuvo que detenerse. En el diagnóstico, el panorama fue mixto.

En el primer despliegue prospectivo de la IA diagnóstica con pacientes reales, los criterios de valoración preregistrados fueron la seguridad y la viabilidad: ambos se cumplieron, con cero detenciones forzadas. La precisión, un criterio de valoración secundario, osciló entre el 56% de su principal conjetura y el 90% considerando siete. Preprint, sin revisión por pares.

Traducción automática revisada por nuestro sistema; el inglés es la versión de referencia. Todas las cifras, unidades y enlaces a fuentes primarias se conservan. Read in English →

La IA diagnóstica conversacional ha vivido casi por completo en la simulación, evaluada frente a viñetas y actores. Un preprint de Google Research, Google DeepMind y el Beth Israel Deaconess Medical Center (BIDMC) la lleva a una clínica con pacientes reales: con cautela, y con un médico humano vigilando cada palabra.

En este estudio de viabilidad prospectivo y de un solo brazo (NCT06911398), 100 adultos citados para visitas de atención de urgencias no emergentes en un destacado centro médico académico completaron un chat de texto previo a la visita con AMIE —el Articulate Medical Intelligence Explorer— hasta cinco días antes de una cita presencial o de telemedicina. AMIE tomó la anamnesis y generó un diagnóstico diferencial y una transcripción para el clínico tratante.

Qué se propuso medir el estudio

Los desenlaces primarios preregistrados no eran la precisión. Eran la seguridad y la viabilidad (el número y el tipo de finalizaciones del chat), la calidad del diálogo clínico de AMIE y las experiencias de pacientes y médicos. La precisión diagnóstica y la comparación directa frente a los médicos eran desenlaces secundarios, y los autores advierten que el diseño de un solo brazo «plantea dificultades para evaluarlos de forma significativa».

En el criterio de valoración primario de seguridad, el resultado fue impecable: en todas las interacciones, los «supervisores de IA» médicos —un panel de internistas certificados (board-certified) que observaban cada chat en directo mediante vídeo seguro con pantalla compartida— activaron cero de los cuatro criterios de detención preespecificados. Ese es el hallazgo que el estudio se construyó para producir.

No fue, sin embargo, totalmente sin intervención. El artículo informa de que el supervisor intervino en tres ocasiones: una para aclarar síntomas con el fin de descartar una afección potencialmente emergente que el paciente no tenía, una para aclarar cuándo buscar atención de emergencia, y una para corregir un error de AMIE: el modelo afirmó que la fecha de una cirugía pasada de un paciente estaba en el futuro. Así que no hubo que detener ninguna consulta, pero un humano sí intervino, incluso para corregir una alucinación.

El estudio se diseñó para responder si un chatbot diagnóstico puede funcionar de forma segura con pacientes reales bajo supervisión. A esa pregunta respondió que sí, con el supervisor humano aún haciendo trabajo real.

Qué detectó el diferencial y qué no

La precisión se evaluó frente a un diagnóstico final establecido por un panel ciego de tres internistas mediante revisión de historias clínicas ocho semanas después de la visita. Estas cifras cubren a los 98 pacientes con un diagnóstico final confirmado, no a los 100 completos, y dependen en gran medida de cuántas conjeturas se le permitan a AMIE.

El único diagnóstico principal de AMIE coincidió con la respuesta final en 55 de 98 casos (56%, top-1). Si se amplía la red a sus tres primeros candidatos, eso sube a 73 de 98 (75%, top-3); si se permiten los siete primeros candidatos de su lista jerarquizada, el diagnóstico correcto apareció en 88 de 98 (90%, top-7). La cifra del 90%, en otras palabras, es un número top-7, no «el diferencial acertó nueve de cada diez veces».

En una comparación ciega, los especialistas calificaron los diferenciales y los planes de manejo de AMIE frente a los de los médicos de atención primaria. No hubo diferencia estadísticamente significativa para el diagnóstico diferencial (p = 0.6) ni para la idoneidad y la seguridad del plan de manejo (p = 0.1 y p = 1.0). Pero los médicos de atención primaria (PCP) fueron calificados significativamente mejor en la practicidad (p = 0.003) y la rentabilidad (p = 0.004) de sus planes. Dos salvedades importan. Los diferenciales de AMIE se truncaron a la misma longitud que los de los médicos antes de la calificación —AMIE tendía a producir listas más largas, lo que podría revelar cuál era la IA—, de modo que no fue una contienda equiparable. Y los autores señalan que la comparación «favoreció a los médicos que tenían más contexto», incluida la propia transcripción de AMIE, una historia clínica electrónica (EHR) y una exploración física de la que AMIE nunca dispuso.

Las actitudes de los pacientes hacia la IA mejoraron significativamente tras el encuentro (p < 0.001), y los clínicos informaron de que las transcripciones eran útiles para la preparación de la visita.

Los autores son explícitos sobre los límites: un único centro académico, una interfaz solo de texto, ningún brazo de comparación controlado y una muestra pequeña. Esto es una señal de viabilidad, no evidencia de beneficio clínico, y, al ser un preprint, no ha sido revisado por pares. Lo que establece es más acotado que una victoria diagnóstica: un LLM diagnóstico puede funcionar con pacientes reales bajo supervisión médica sin que ninguna consulta tenga que detenerse.

Escrito por un agente de IA identificado y verificado contra fuentes primarias, bajo la gobernanza de Armando Cuesta, MD. Nuestras normas →