Los modelos de IA generativa son Cada vez más, son incorporados a entornos de atención médica. – En algunos casos, quizás de forma prematura. Los primeros usuarios creen que desbloquearán una mayor eficiencia y al mismo tiempo revelarán conocimientos que de otro modo podrían pasarse por alto. Al mismo tiempo, los críticos señalan que estos modelos tienen fallas y sesgos que pueden contribuir a peores resultados de salud.
Pero, ¿existe una forma cuantitativa de saber qué tan útil o dañino es un modelo cuando se le asignan tareas como resumir registros de pacientes o responder preguntas relacionadas con la salud?
Hugging Face, una startup de inteligencia artificial, propone una solución en Una prueba estandarizada recientemente lanzada llamada Open Medical-LLM. Creado en asociación con investigadores de la organización sin fines de lucro Open Life Science AI y el Natural Language Processing Group de la Universidad de Edimburgo, Open Medical-LLM tiene como objetivo estandarizar la evaluación del desempeño de modelos generativos de IA en una variedad de tareas relacionadas con la medicina.
NUEVO: ¡Abra la tabla de clasificación médica de LLM! 🩺
En el software de chat básico, los errores son una molestia.
En LLM, los errores pueden tener consecuencias potencialmente mortales 🩸Por lo tanto, es esencial medir/seguir el progreso en el LLM antes de considerar la publicación.
Blog: https://t.co/pddLtkmhsz
– Clementina Fourier 🍊 (@clefourrier) 18 de abril de 2024
Open Medical-LLM no es desde cero El estándar en sí es una compilación de conjuntos de pruebas existentes (MedQA, PubMedQA, MedMCQA, etc.) diseñadas para explorar modelos de conocimiento médico general y campos relacionados, como anatomía, farmacología, genética y práctica clínica. El estándar contiene preguntas abiertas y de opción múltiple que requieren razonamiento y comprensión médicos, extraídas de materiales que incluyen exámenes de licencia médica de EE. UU. e India y bancos de preguntas de exámenes de biología universitarios.
«[Open Medical-LLM] Permite a investigadores y profesionales identificar las fortalezas y debilidades de diferentes enfoques, impulsar mayores avances en el campo y, en última instancia, contribuir a mejorar la atención y los resultados del paciente”, escribió Hugging Face en una publicación de blog.
Créditos de imagen: abrazo de cara
Hugging Face establece el estándar como una “evaluación sólida” de modelos generativos de IA asociados con la atención médica. Pero algunos expertos médicos en las redes sociales han advertido que no se debe invertir demasiado en Open Medical-LLM, por temor a que pueda conducir a implementaciones desacertadas.
Y en el programa actual La práctica clínica puede ser muy amplia.
Es un gran progreso ver estas comparaciones de frente, pero es importante que recordemos también cuán amplia es la brecha entre el entorno inventado para responder preguntas médicas y la práctica clínica real. Sin mencionar los riesgos únicos que estas métricas no pueden capturar.
– Liam McCoy, Doctor en Medicina y Maestría en Ciencias (@LiamGMcCoy) 18 de abril de 2024
La científica investigadora de Hugging Face, Clementine Fourier, coautora de la publicación del blog, estuvo de acuerdo.
“Estas tablas de clasificación solo deben usarse como una estimación preliminar [generative AI model] Para explorar un caso de uso específico, siempre se necesita una fase de prueba más profunda para examinar las limitaciones del modelo y su relevancia en condiciones reales. Fourier respondió En X. “Médico [models] Los pacientes nunca deben utilizarlos solos, sino que se les debe formar para que se conviertan en herramientas de apoyo para los médicos.
Esto recuerda la experiencia de Google cuando intentó llevar su herramienta de detección de retinopatía diabética con inteligencia artificial a los sistemas de salud en Tailandia.
Google creó un Un sistema de aprendizaje profundo que escanea imágenes oculares., en busca de evidencia de retinopatía, la principal causa de pérdida de visión. Pero a pesar de la alta precisión teórica, La herramienta resultó difícil de manejar en pruebas del mundo real.Esto frustra tanto a los pacientes como a las enfermeras con resultados inconsistentes y una falta general de coherencia con las prácticas sobre el terreno.
De los 139 dispositivos médicos relacionados con la IA aprobados por la FDA hasta ahora, Ninguno utiliza IA generativa. Es muy difícil probar cómo el rendimiento de una herramienta de IA obstétrica en el laboratorio se traslada a hospitales y clínicas ambulatorias y, quizás lo más importante, cómo los resultados podrían evolucionar con el tiempo.
Esto no significa que Open Medical-LLM no sea útil o útil. La tabla de clasificación de puntuaciones, al menos, sirve como recordatorio de cómo hacerlo. Malo Los modelos responden preguntas básicas de salud. Pero Open Medical-LLM, y no cualquier otro estándar, es una alternativa a las pruebas del mundo real cuidadosamente consideradas.
Este artículo apareció originalmente en TechCrunch en https://techcrunch.com/2024/04/18/hugging-face-releases-a-benchmark-for-testing-geneative-ai-on-health-tasks/