En un artículo publicado recientemente en la revista CienciasLos investigadores presentaron AlphaMissense, un modelo de estructura proteica de alta precisión adaptado de AlphaFold AF para predecir y caracterizar la patogenicidad de variantes de proteínas humanas a nivel de proteína en el nivel de sustitución de un solo aminoácido.
Estancia: Predicción precisa del efecto de una variante sin sentido a nivel de proteína utilizando AlphaMissense. Crédito de la imagen: Artemisidiana/Shutterstock
Fue una modificación del AF salvo pequeñas diferencias arquitectónicas. Además, se ha incorporado la capacidad de la AF para comprender inherentemente la alineación de secuencias múltiples (MSA) y aprender las limitaciones evolutivas de secuencias relacionadas.
De los más de cuatro millones de variantes sin sentido identificadas mediante esfuerzos de secuenciación del genoma, sólo el 2% se clasifica como patógena y benigna. Ambas variantes cambian las secuencias de aminoácidos de las proteínas para ejercer sus efectos; Sin embargo, sólo las variantes patógenas sin sentido alteran significativamente la función de las proteínas para reducir la aptitud del organismo.
La falta de modelos predictivos para predecir con precisión las funciones de las variantes sin sentido, especialmente aquellas cuyo significado se desconoce, representa un desafío importante en la genética humana. Esto ha llevado a una reducción en la tasa de diagnóstico de enfermedades raras y al desarrollo de tratamientos clínicos dirigidos a la causa genética de la enfermedad.
Los ensayos de efectos de múltiples variables (MAVE) identifican sistemáticamente los efectos de las variables de error para predecir los resultados clínicos; Sin embargo, es laborioso y costoso, lo que dificulta un estudio proteómico a gran escala de la patogenicidad de la variante sin sentido.
Del mismo modo, los métodos de aprendizaje automático aprovechan el conocimiento previo para detectar variables erróneas, heredando así sesgos. Además, son vulnerables a la fuga de datos entre los brazos de entrenamiento y prueba.
Descubrir las causas de las enfermedades es uno de los mayores desafíos de la genética. ��
Para ayudar a lograrlo, creamos AlphaMissense: un modelo de inteligencia artificial que clasifica variantes sin sentido (o cambios genéticos que afectan a las proteínas).
Así es como los científicos pueden ayudar. �� https://t.co/ka19HXINjI pic.twitter.com/m1flaTl2TN
-Google DeepMind (@GoogleDeepMind) 19 de septiembre de 2023
Otra clase de enfoques utilizó métodos no supervisados para modelar la distribución de aminoácidos en el sitio de una determinada proteína evolucionada naturalmente para interpretar la patogenicidad como la diferencia en la probabilidad logarítmica esperada entre secuencias alternativas y de referencia. Sin embargo, estos enfoques no lograron comprender la estructura de las proteínas como lo hizo la FA.
Para superar posibles sesgos humanos, los investigadores utilizaron métodos en AlphaMissense que fueron entrenados usando marcadores débiles, como variantes benignas y variantes patógenas con variantes putativas nunca antes vistas en humanos.
Los modelos entrenados en bases de datos clínicas, por ejemplo, ClinVar, heredan sesgos humanos y, a menudo, no logran generalizar a múltiples parámetros clínicos. Los investigadores probaron AlphaMissense en variantes sin sentido de ClinVar después de equilibrar el número de variantes patógenas y benignas para cada gen.
Logró un área bajo la curva del operador receptor (auROC) de 0,940 en 18.924 variables para la prueba ClinVar frente a un auROC de 0,911 logrado por el modelo de efecto variable evolutivo (EVE), un modelo no entrenado directamente en ClinVar. AlphaMissense también superó a los modelos entrenados directamente en ClinVar. Además, AlphaMissense distinguió entre variantes ClinVar patógenas y benignas dentro de regiones con alta restricción evolutiva, lo que sugiere que detectó diferencias en el impacto de variantes individuales dentro de dominios restringidos.
Distinguir entre variantes benignas y patogénicas dentro de genes específicos asociados a enfermedades es una tarea clínica relevante para los modelos predictivos. También en este aspecto AlphaMissense aportó predicciones positivas. En un análisis de 612 genes con cinco variantes patógenas y cinco variantes benignas en el conjunto de pruebas ClinVar, el auROC promedio a nivel genético alcanzó 0,950 frente a 0,921 para EVE. Para los 34 genes clínicamente procesables del American College of Medical Genetics (ACMG), 26 genes (77%) mostraron mejoras en AlphaMissense sobre los predictores de patogenicidad de EVE. De hecho, las predicciones calibradas de AlphaMissense pueden aumentar la cantidad de variantes mal clasificadas con confianza en comparación con otros métodos.
Los investigadores genéticos han observado constantemente que las variantes sin sentido que causan enfermedades residen en proteínas más estables térmicamente. Por tanto, las variantes en regiones reguladas (frente a regiones desordenadas) se asocian con mayores grados de patogenicidad. Como resultado, AlphaMissense predijo una mayor patogenicidad en genes evolutivamente restringidos frente a genes no restringidos. Además, capturó la conservación del dominio dentro de la proteína, si no la conservación evolutiva a nivel de proteína.
Como era de esperar, es más probable que las mutaciones en los aminoácidos aromáticos o las cisteínas causen enfermedades, dado su papel en el mantenimiento de la estructura de las proteínas. Las puntuaciones de sustitución previstas fueron asimétricas, lo que sugiere que AlphaMissense utilizó información estructural y evolutiva de MSA para hacer que las predicciones fueran consistentes con principios biológicos conocidos.
La patogenicidad promedio de AlphaMissense por locus coincidió fuertemente con el MAVE promedio por locus para proteínas relacionadas con enfermedades como SHOC2. De hecho, AlphaMissense es el único modelo que predice con precisión los efectos patógenos de las mutaciones en los primeros 80 aminoácidos funcionalmente importantes de SHOC2, de los cuales las posiciones 63 a 74 eran patógenas según el ensayo MAVE. SHOC2 forma un complejo con MRAS y PP1C para activar la vía de señalización Ras-MAPK (proteína quinasa activada por mitógenos) en el cáncer.
Además, AlphaMissense se entrenó en dos etapas, inicialmente prediciendo la estructura monocatenaria como AF con modelado del lenguaje de proteínas para predecir la identidad de aminoácidos enmascarados en posiciones aleatorias en la MSA. Después del entrenamiento previo, se sintonizó con proteínas humanas para ayudar a mejorar la patogenicidad de la variante. Un estudio de ablación que eliminó sistemáticamente componentes del modelo encontró que ambas fases de entrenamiento eran necesarias para un rendimiento óptimo.
La patogenicidad promedio AlphaMissense del gen comparte propiedades similares con la fracción límite superior de pérdida de función observada/esperada (LOEUF) en una amplia gama de medidas biológicas de intolerancia en humanos. La mayoría de las características de los genes en el decil de mayor patogenicidad de las predicciones de AlphaMissense se mantuvieron consistentes entre los genes deficientes en LOEUF, favoreciendo la generalización de las puntuaciones a 4252 genes pequeños adicionales.
En general, una metodología que combine las predicciones de AlphaMissense con enfoques de cohortes poblacionales puede determinar de manera efectiva la importancia funcional de genes humanos cortos para los cuales estos últimos (por sí solos) carecen de poder estadístico.
Conclusiones
Los investigadores publicaron a la comunidad de investigadores cuatro recursos que contienen millones de predicciones erróneas en todo el proteoma humano. El primer conjunto de datos contiene 71 millones de variantes sin sentido, de las cuales el 32% y el 57% son probablemente patógenas y benignas, respectivamente. Aquí, cada variante sin sentido mostró un único cambio de nucleótido, lo que resultó en un cambio de aminoácido.
El segundo recurso fueron las predicciones de patogenicidad de AlphaMissense a nivel genético. El tercer grupo consta de 216 millones de posibles sustituciones de aminoácidos individuales en 19.233 proteínas humanas. El último y cuarto recursos contienen predicciones de todas las posibles variantes de sentido erróneo y sustituciones de aminoácidos en 60.000 isoformas alternativas para futuras investigaciones.
«Erudito en viajes incurable. Pensador. Nerd zombi certificado. Pionero de la televisión extrema. Explorador general. Webaholic».