Uso del aprendizaje profundo para anotar el universo de las proteínas

Uso del aprendizaje profundo para anotar el universo de las proteínas


Las proteínas son moléculas esenciales que se encuentran en todos los seres vivos. Desempeñan un papel central en la estructura y función de nuestro cuerpo y también se encuentran en muchos de los productos que encontramos todos los días, desde medicamentos hasta artículos para el hogar como detergente para ropa. Cada proteína es una cadena de bloques de construcción de aminoácidos y, al igual que una imagen, puede contener varios objetos, p. B. un perro y un gato, una proteína también puede tener múltiples componentes que actúan como dominios de proteínas. Comprender la relación entre la secuencia de aminoácidos de una proteína, por ejemplo, sus dominios, y su estructura o función es un desafío de larga data con implicaciones científicas de gran alcance.

Un ejemplo de una proteína con una estructura conocida es TrpCF E. coli, para las cuales se resaltan (verde) las áreas utilizadas por un modelo para predecir la función. Esta proteína produce triptófano, que es una parte esencial de la dieta de una persona.

Muchos están familiarizados con los avances recientes en la predicción computacional de proteínas. estructura de secuencias de aminoácidos como se ve con AlphaFold de DeepMind. De manera similar, la comunidad científica tiene una larga historia de uso de herramientas computacionales para inferir proteínas función directamente de las secuencias. Por ejemplo, la base de datos de familias de proteínas ampliamente utilizada Pfam contiene numerosas anotaciones computacionales muy detalladas que describen la función de un dominio de proteína, p. B. las familias de globina y tripsina. Si bien los enfoques existentes han predicho con éxito la función de cientos de millones de proteínas, hay muchas más con funciones desconocidas; por ejemplo, al menos un tercio de las proteínas microbianas no están anotadas de manera confiable. A medida que el volumen y la diversidad de secuencias de proteínas en las bases de datos públicas continúan aumentando rápidamente, el desafío de predecir con precisión la función de secuencias altamente divergentes se vuelve más apremiante.

En «Uso del aprendizaje profundo para anotar el universo de proteínas», publicado en biotecnología naturaldescribimos una técnica de aprendizaje automático (ML) para predecir de manera confiable la función de las proteínas. Este enfoque, al que llamamos ProtENN, nos ha permitido agregar alrededor de 6,8 millones de entradas al conocido y confiable conjunto de anotaciones de funciones de proteínas de Pfam, aproximadamente equivalente a la suma de los avances durante la última década, que publicamos como Pfam-N. Para fomentar más investigaciones en esta dirección, estamos publicando el modelo ProtENN y un artículo interactivo similar a un destilado que permite a los investigadores experimentar con nuestras técnicas. Esta herramienta interactiva permite al usuario ingresar una secuencia y obtener resultados para una función de proteína predicha en tiempo real en el navegador, sin necesidad de configuración. En esta publicación, brindamos una descripción general de este logro y cómo estamos progresando para revelar más sobre el universo de las proteínas.

La base de datos Pfam es una gran colección de familias de proteínas y sus secuencias. Nuestro modelo ML ProtENN ayudó a anotar 6,8 millones de regiones de proteínas adicionales en la base de datos.

Predicción de la función proteica como problema de clasificación
En visión por computadora, es común entrenar primero un modelo para tareas de clasificación de imágenes como CIFAR-100 antes de expandirlo a tareas más especializadas como detección y localización de objetos. De manera similar, desarrollamos un modelo de clasificación de dominios de proteínas como un primer paso hacia futuros modelos para clasificar secuencias de proteínas completas. Formulamos el problema como una tarea de clasificación de varias clases, en la que predecimos una sola etiqueta de 17 929 clases (todas las clases están contenidas en la base de datos de Pfam) dada la secuencia de aminoácidos de un dominio de proteína.

Modelos que vinculan la secuencia con la función
Si bien actualmente se encuentran disponibles varios modelos para la clasificación de dominios de proteínas, una desventaja de los métodos de vanguardia actuales es que se basan en la alineación de secuencias lineales y no tienen en cuenta las interacciones entre los aminoácidos en diferentes partes de las secuencias de proteínas. Pero las proteínas no se quedan solo en una serie de aminoácidos, sino que se pliegan sobre sí mismas de tal manera que los aminoácidos no adyacentes tienen efectos poderosos entre sí.

Hacer coincidir una nueva secuencia de consulta con una o más secuencias de función conocida es un paso clave en los métodos actuales de la técnica anterior. Esta dependencia de secuencias con función conocida dificulta la predicción de la función de una nueva secuencia cuando difiere mucho de una secuencia con función conocida. Además, los métodos basados ​​en la alineación son computacionalmente intensivos y aplicarlos a grandes conjuntos de datos, como la base de datos metagenómica MGnify, que contiene> 1 mil millones de secuencias de proteínas, puede ser prohibitivamente costoso.

Para abordar estos desafíos, proponemos utilizar redes neuronales convolucionales avanzadas (CNN), que son muy adecuadas para modelar interacciones de aminoácidos por pares no locales y se pueden ejecutar en hardware ML moderno, como GPU. Entrenamos CNN unidimensionales para predecir la clasificación de secuencias de proteínas, a las que llamamos ProtCNN, y un conjunto de modelos ProtCNN entrenados de forma independiente, a los que llamamos ProtENN. Nuestro objetivo al usar este enfoque es agregar conocimiento a la literatura científica mediante el desarrollo de un enfoque de ML confiable que complemente los métodos tradicionales basados ​​en la alineación. Para demostrar esto, desarrollamos un método para medir con precisión la precisión de nuestro método.

Evaluación teniendo en cuenta la evolución
De manera similar a los problemas de clasificación bien conocidos en otros campos, el desafío en la predicción de la función de la proteína se trata menos de desarrollar un modelo completamente nuevo para la tarea y más de crear conjuntos de entrenamiento y prueba justos para garantizar que los modelos hagan predicciones precisas sobre datos no vistos. Debido a que las proteínas evolucionaron a partir de ancestros comunes, diferentes proteínas a menudo comparten una porción significativa de su secuencia de aminoácidos. Sin el cuidado adecuado, el conjunto de prueba podría estar dominado por muestras que se parecen mucho a los datos de entrenamiento, lo que podría dar como resultado que los modelos funcionen bien simplemente «recordando» los datos de entrenamiento, en lugar de aprender a generalizarlos de manera más general.

Creamos un conjunto de prueba que requiere que ProtENN se generalice bien a datos muy alejados de su conjunto de entrenamiento.

Para evitar esto, es importante evaluar el rendimiento del modelo utilizando varias configuraciones separadas. Para cada evaluación, estratificamos la precisión del modelo en función de la similitud entre cada secuencia de prueba soportada y la siguiente secuencia en el tren.

La primera evaluación implica un conjunto de pruebas y entrenamiento dividido agrupado en consonancia con la literatura anterior. Aquí, las muestras de secuencias de proteínas se agrupan por similitud de secuencia, y los grupos completos se colocan en uno de los dos trenes. o conjuntos de prueba Como resultado, cada muestra de prueba difiere de cada muestra de entrenamiento en al menos un 75 %. El buen desempeño en esta tarea muestra que un modelo puede generalizarse para hacer predicciones precisas para datos fuera de la distribución.

Para la segunda evaluación, utilizamos un conjunto de prueba y entrenamiento dividido aleatoriamente, donde estratificamos las muestras en función de una estimación de la dificultad de clasificarlas. Estas medidas de dificultad incluyen: (1) la similitud entre un ejemplo de prueba y el ejemplo de entrenamiento más cercano, y (2) la cantidad de ejemplos de entrenamiento de la clase real (es mucho más difícil predecir con precisión la función en solo un puñado de ejemplos de entrenamiento) .

Para poner nuestro trabajo en contexto, evaluamos el rendimiento de los modelos base y las configuraciones de puntuación más utilizados, específicamente usando los siguientes modelos base: (1) BLAST, un método del vecino más cercano que usa la alineación de secuencias para medir la distancia y la función, y (2) perfiles de modelos ocultos de Markov (TPHMM y phmmer). Para cada uno de estos, incluimos la estratificación del rendimiento del modelo en función de la similitud de alineación de secuencias mencionada anteriormente. Comparamos estas líneas de base con ProtCNN y el conjunto CNN ProtENN.

Medimos la generalización de cada modelo usando los ejemplos más difíciles (Izquierda) Lo más fácil (A la derecha).

Resultados reproducibles e interpretables
También trabajamos con el equipo de Pfam, que son expertos reconocidos internacionalmente del Instituto Europeo de Bioinformática del Laboratorio Europeo de Biología Molecular (EMBL-EBI), para probar si nuestra prueba de concepto metodológica podría usarse para etiquetar secuencias del mundo real. Hemos demostrado que ProtENN aprende información complementaria de los métodos basados ​​en la alineación y creamos un conjunto de los dos enfoques para etiquetar más secuencias de las que cualquiera de los métodos podría por sí solo. Hemos publicado los resultados de este esfuerzo, Pfam-N, un conjunto de 6,8 millones de nuevas anotaciones de secuencias de proteínas.

Después de ver el éxito de estos métodos y tareas de clasificación, examinamos estas redes para comprender si las incorporaciones eran útiles en general. Desarrollamos una herramienta que permite a los usuarios explorar la relación entre las predicciones del modelo, las incorporaciones y las secuencias de entrada que pusimos a disposición a través de nuestro manuscrito interactivo, y descubrimos que secuencias similares se agrupaban en el espacio de incorporación. Además, la arquitectura de red que hemos elegido, una CNN dilatada, nos permite aplicar métodos de interpretabilidad previamente descubiertos, como la asignación de activación de clase (CAM) y subconjuntos de entrada suficientes (SIS) para identificar las subsecuencias responsables de las predicciones de la red neuronal. Con este enfoque, encontramos que nuestra red generalmente se enfoca en los elementos relevantes de una secuencia para predecir su función.

Conclusión y trabajo futuro
Estamos entusiasmados con los avances que hemos visto a través de la aplicación de ML para comprender la estructura y la función de las proteínas en los últimos años, lo que se refleja en las contribuciones de la comunidad de investigación más amplia, desde AlphaFold y CAFA hasta una variedad de talleres y presentaciones de investigación sobre este tema en las conferencias. A medida que buscamos desarrollar este trabajo, creemos que una mayor colaboración con científicos de todo el campo que han compartido su experiencia y datos, combinados con avances en ML, nos ayudarán a revelar aún más el universo de las proteínas.

Gracias
Nos gustaría agradecer a todos los coautores del manuscrito, Maysam Moussalem, Jamie Smith, Eli Bixby, Babak Alipanahi, Shanqing Cai, Cory McLean, Abhinay Ramparasad, Steven Kearnes, Zack Nado y Tom Small. También nos gustaría agradecer al equipo de Pfam en EMBL-EBI por su asociación en la publicación de Pfam-N.

Related post

Mantente borracho para seguir con vida en este divertido juego de zombis de realidad virtual

Mantente borracho para seguir con vida en este divertido…

El hecho de que el mundo se esté acabando no significa que no puedas divertirte. Gran parte de la población mundial…
Cómo funcionan las canalizaciones de datos con almacenes

Cómo funcionan las canalizaciones de datos con almacenes

Las empresas a menudo reciben datos de diferentes fuentes. Los datos pueden ser datos estructurados, semiestructurados o incluso no estructurados, como…
Shores Of Loci es un magnífico juego de rompecabezas de realidad virtual para Quest, PC VR

Shores Of Loci es un magnífico juego de rompecabezas…

Si quieres que tu acertijo de realidad virtual sea un poco más sobrenatural que Puzzling Places (o si literalmente solo quieres…

Leave a Reply

Tu dirección de correo electrónico no será publicada.