Un salto adelante en el diagnóstico de enfermedades genéticas con una precisión superior al 98%.

En un estudio reciente publicado en Estrella de la inteligencia artificialLos investigadores han desarrollado el modelo de recursos agregados para la exploración de variantes raras (MARRVEL) basado en inteligencia artificial para seleccionar genes causales y sus mutaciones para enfermedades mendelianas en función de características clínicas y secuencias genéticas.

​​​​​​​Estudio: AI-MARRVEL: un sistema de inteligencia artificial basado en el conocimiento para diagnosticar trastornos mendelianos.  Crédito de la imagen: Antiv/Shutterstock.comEstudiar: AI-MARRVEL: un sistema de inteligencia artificial basado en el conocimiento para diagnosticar trastornos mendelianos. Crédito de la imagen: Antiv/Shutterstock.com

fondo

Millones de personas en todo el mundo nacen con enfermedades hereditarias, generalmente enfermedades mendelianas causadas por mutaciones de un solo gen. Identificar estas mutaciones requiere mucha mano de obra y experiencia significativa.

Los procedimientos integrales, sistemáticos y eficaces pueden aumentar la velocidad y la precisión del diagnóstico. La IA ha demostrado potencial, pero sólo ha tenido un éxito modesto en el diagnóstico inicial.

La reevaluación basada en bioinformática es menos costosa pero tiene una precisión limitada, lo que hace que la priorización de variaciones no codificadas sea laboriosa y requiere el uso de datos de simulación.

Sobre el estudio

En este estudio, los investigadores presentan un modelo MARRVEL AI (AIM) basado en el conocimiento para identificar enfermedades mendelianas.

AIM es un clasificador de aprendizaje automático que combina más de 3,5 millones de variaciones de miles de variantes diseñadas por expertos y específicas de cada caso para mejorar el diagnóstico molecular. El equipo comparó AIM con pacientes de tres grupos y desarrolló una puntuación de confianza para encontrar casos diagnosticables en los grupos no resueltos.

Capacitaron a AIM con muestras de alta calidad y funciones desarrolladas por expertos. Probaron el modelo en tres conjuntos de datos de pacientes para diferentes aplicaciones, como dominante, recesiva, diagnóstico triple, identificación de nuevos genes de enfermedades y reevaluación a gran escala.

Los investigadores recopilaron palabras clave para la ontología del fenotipo humano (HPO) y secuencias del exoma de tres cohortes de pacientes: DiagLab, la Red de enfermedades no diagnosticadas (UDN) y el proyecto Descifrando los trastornos del desarrollo (DDD). Dividieron los datos de DiagLab en conjuntos de datos de entrenamiento y prueba y probaron DDD y UDN por separado.

Guiaron a AIM a través de la ingeniería de características basada en el conocimiento, que utilizó experiencia clínica y principios genéticos para seleccionar 56 características iniciales, como frecuencia alélica menor, base de datos de enfermedades, conservación evolutiva, efecto variante, coincidencia de fenotipo, patrón de herencia, puntuaciones de patogenicidad de variantes y limitaciones genéticas. . Calidad de secuenciación y predicción de enlaces.

El equipo creó seis módulos de toma de decisiones de diagnóstico genético, lo que dio como resultado 47 funciones adicionales. Utilizaron clasificadores de bosques aleatorios como su principal algoritmo de IA y consultaron evaluaciones comparativas y literatura de mejor rendimiento.

Utilizaron funciones como SpliceAI para priorizar las variaciones de empalme. Desarrollaron el modelo AIM-sin-VarDB para examinar el impacto de datos fenotípicos erróneos.

Utilizaron un enfoque de «escalada de características» para evaluar la contribución de cada característica y clasificar todas las características según su importancia biológica.

Los investigadores desarrollaron una puntuación en una muestra para estimar la posibilidad de diagnosticar con éxito la variación diagnóstica en un paciente con AIM.

Dividieron a los pacientes en dos grupos según su nivel de confianza: aquellos con alta confianza se sometieron a una revisión manual, mientras que aquellos con baja confianza se sometieron a un nuevo análisis.

Construyeron cuatro puntuaciones de confianza, las aplicaron a muestras UDN y DDD y las evaluaron distinguiendo a los pacientes positivos de los negativos y a los familiares no afectados de los pacientes de novo.

resultados

AIM ha aumentado drásticamente la precisión del diagnóstico genético, triplicando el número de casos resueltos en comparación con los enfoques estándar en tres cohortes del mundo real. AIM logró una tasa de precisión del 98% y detectó el 57% de 871 casos diagnosticables.

También se ha mostrado prometedor en el descubrimiento de nuevos genes de enfermedades al predecir con precisión dos genes informados recientemente por la Red de Enfermedades No Diagnósticas. AIM superó a los métodos existentes en tres conjuntos de datos separados, superando a Genomiser en los conjuntos UDN y DiagLab.

El método AIM logró distinguir entre variaciones patógenas diagnósticas y no diagnósticas en ClinVar. AIM-with-VarDB experimentó una ligera caída en el rendimiento, pero superó a las otras técnicas medidas.

El desarrollo de funciones expertas aumentó la precisión del modelo objetivo y al mismo tiempo retrasó la saturación del entrenamiento. Utilizando el 20% de los datos de entrenamiento, AIM mantuvo una precisión del primer diagnóstico del 54%. Con más muestras de entrenamiento, el modelo entrenado con variables geométricas mostró una precisión del 66%, mientras que el modelo sin características geométricas tuvo una precisión del 58%.

Los investigadores encontraron una reducción del 11 % en la precisión del diagnóstico de primera línea, lo que demuestra que la anotación precisa del fenotipo es crucial. Incluso con información aparentemente inútil, AIM tuvo una precisión diagnóstica del 78% entre los cinco primeros, lo que destaca la importancia de la evidencia molecular.

El aumento de la puntuación de similitud fenotípica basada en OMIM de 0 a 0,25 aumentó los resultados de predicción entre un 60,0% y un 90,0%. Sin embargo, los aumentos posteriores por encima de 0,3 solo dieron como resultado un ligero aumento, lo que indica que no existe ningún requisito para una coincidencia precisa de los fenotipos OMIM.

El clasificador triple (AIM-Trio) superó a los modelos Exomiser y Genomiser Trio, mientras que superó ligeramente al modelo de banda ancha únicamente (AIM). El modelo AIM-NDG eliminó características asociadas con bases de datos de enfermedades reconocidas.

Según los resultados del estudio, AIM es una herramienta de diagnóstico genético de aprendizaje automático capaz de identificar nuevos genes de enfermedades y analizar miles de muestras en días. Es muy preciso y útil para el diagnóstico inicial, el reanálisis de casos no resueltos y la identificación de nuevos genes de enfermedades.

AIM analiza aproximadamente 3,5 millones de puntos de datos de contraste de miles de casos diagnosticados y proporciona una interfaz web para que los usuarios envíen casos y examinen los resultados.

Sin embargo, las limitaciones incluyen no evaluar cambios estructurales o cambios en el número de copias y centrarse en posiciones que contienen mutaciones codificantes. Los modelos de lenguajes grandes, como PhenoBCBERT y PhenoGPT, han mostrado un mayor rendimiento.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *