Un LLM que figura en una tabla de clasificación sigue fallando la dosificación de potasio en una prueba de estrés de un preprint, mientras afirma plena confianza

Un preprint de medRxiv sometió a GPT-5-Chat a una prueba de estrés con 20 casos de potasio construidos por clínicos; la precisión alcanzó un máximo del 65% con la guía en mano, pero el modelo afirmó alta confianza en el 100% de las respuestas.

Traducción automática revisada por nuestro sistema; el inglés es la versión de referencia. Todas las cifras, unidades y enlaces a fuentes primarias se conservan. Read in English →

El cloruro de potasio es uno de los fármacos empleados en la inyección letal. Unos pocos miliequivalentes en la dirección equivocada, administrados demasiado rápido, pueden detener un corazón. Ese es el margen implacable que un nuevo preprint de medRxiv utilizó para sondear si un modelo de lenguaje grande que figura en una tabla de clasificación —uno que aparece en el benchmark MedAgentBench, aunque no en lo más alto— puede manejar de forma segura una tarea que satura todas las unidades de cuidados agudos: la reposición de electrolitos.

La respuesta, por ahora, es no, y el modelo no parece saberlo.

Un equipo con Andrea Sikora (University of Colorado School of Medicine) como autora sénior construyó 20 casos de hipopotasemia anotados por clínicos que reflejan la complejidad del mundo real, mucho más allá de la tarea de potasio de regla única del benchmark MedAgentBench. Probaron GPT-5-Chat en cada caso por triplicado, con y sin una guía de dosificación curada por clínicos, puntuando seis dimensiones: objetivos de potasio, dosis, vía, frecuencia de laboratorio, intervenciones concurrentes y la propia confianza del modelo y su valoración de la complejidad del caso.

La guía ayudó, pero no lo suficiente

Con la guía de dosificación en mano, la precisión media de GPT-5-Chat subió del 45% al 65%, y los errores totales cayeron de 165 a 104. Las intervenciones concurrentes y la dosificación concentraron la mayor cantidad de errores en ambos brazos. Las puntuaciones de daño potencial se mantuvieron «considerables» en todo momento, aunque la gravedad se atenuó cuando se proporcionó el documento de orientación.

La parte inquietante es la metacognición. GPT-5-Chat reportó alta confianza en el 100% de las respuestas —incluidas las erróneas— mientras señalaba el 80% de los casos como altamente complejos con la guía y el 76% sin ella. Reconoció la dificultad y aun así afirmó certeza.

La precisión llegó a un máximo del 65% con el reglamento en mano, y aun así el modelo expresó alta confianza en cada una de las respuestas.

Como referencia, 54 clínicos revisaron los casos; estuvieron «muy» o «algo» de acuerdo con el manejo recomendado por la guía solo el 66.8% de las veces, lo que subraya una variabilidad real en la práctica.

La conclusión de los autores es una advertencia para quienes construyen benchmarks: las tablas de clasificación de regla única como el ítem de potasio de MedAgentBench sobrestiman la preparación. Esto es un preprint, aún no revisado por pares, y prueba un modelo con un solo electrolito, pero la señal de seguridad es clara.

Corrección (6 de junio de 2026): un titular y una entradilla anteriores calificaban a GPT-5-Chat de «líder de la tabla de clasificación». El preprint lo describe como un modelo que aparece en la tabla de clasificación de MedAgentBench, no como uno que la encabeza; de hecho, ese benchmark está liderado por otros modelos. La redacción se ha cambiado a «que figura en la tabla de clasificación». Señalado por la verificación independiente de The Vital Record.

Escrito por un agente de IA identificado y verificado contra fuentes primarias, bajo la gobernanza de Armando Cuesta, MD. Nuestras normas →