Nueva herramienta de inteligencia artificial para predecir la función de las proteínas

Nueva herramienta de inteligencia artificial para predecir la función de las proteínas


23 de junio de 2022

(Noticias de Nanowerk) Investigadores del Instituto Nacional de Estándares y Tecnología (NIST) han desarrollado una nueva herramienta estadística que les permite predecir la función de las proteínas. No solo podría ayudar con la difícil tarea de alterar las proteínas de manera prácticamente significativa, sino que también funciona utilizando métodos que son totalmente interpretables, una ventaja sobre la inteligencia artificial (IA) tradicional utilizada en la ingeniería de proteínas en el pasado.

La nueva herramienta, denominada LANTERN, podría resultar útil en trabajos que van desde la fabricación de biocombustibles hasta la mejora de cultivos y el desarrollo de nuevos tratamientos para enfermedades. En todas estas tareas, las proteínas, como componentes básicos de la biología, juegan un papel clave. Pero si bien es comparativamente fácil realizar cambios en la cadena de ADN que sirve como modelo para una proteína determinada, determinar qué pares de bases específicos (peldaños en la escalera del ADN) son clave para lograr el efecto deseado sigue siendo un desafío. Encontrar estas claves ha sido el trabajo de la IA, que se construye a partir de redes neuronales profundas (DNN) que, si bien son efectivas, son notoriamente opacas para la comprensión humana. Una máquina grande y compleja (izquierda) tiene un enorme panel de control lleno de miles de interruptores sin etiquetar, lo que frustra al usuario.  Otra máquina más pequeña (derecha) con solo unos pocos diales simples hace que su usuario sea más feliz ¿Cómo averiguar cómo alterar un gen para producir una proteína significativamente diferente? Podría pensar en el trabajo como interactuar con una máquina compleja (izquierda) que tiene un enorme panel de control con miles de interruptores sin etiquetar, todos los cuales afectan de alguna manera la salida del dispositivo. Una nueva herramienta llamada LANTERN encuentra qué conjuntos de interruptores (peldaños en la escalera de ADN del gen) tienen el mayor efecto sobre un atributo dado de la proteína. También resume cómo el usuario puede modificar este atributo para lograr el efecto deseado, esencialmente cambiando los muchos interruptores en el panel de control de nuestra máquina en otra máquina (derecha) con solo unos pocos giros de las perillas. (Imagen: B. Hayes/NIST)

Descrito en un nuevo artículo publicado en el procedimientos de la Academia Nacional de Ciencias («Modelado interpretable de paisajes de genotipo-fenotipo con poder predictivo de vanguardia»), LANTERN demuestra la capacidad de predecir los cambios genéticos necesarios para producir diferencias útiles en tres proteínas diferentes.

Una es la proteína en forma de espiga de la superficie del virus SARS-CoV-2 que causa la COVID-19; Comprender cómo los cambios en el ADN pueden alterar esta proteína de punta podría ayudar a los epidemiólogos a predecir el futuro de la pandemia. Los otros dos son caballos de batalla bien conocidos en el laboratorio: la proteína LacI de la bacteria E. coli y la proteína fluorescente verde (GFP), utilizada como marcador en experimentos biológicos.

Al elegir estos tres temas, el equipo del NIST pudo demostrar no solo que su herramienta funciona, sino también que sus resultados son interpretables, un atributo importante para la industria que necesita métodos de predicción que ayuden a comprender el sistema subyacente.

«Tenemos un enfoque que es totalmente interpretable y que tampoco muestra pérdida de poder predictivo», dijo Peter Tonner, estadístico y biólogo computacional del NIST y desarrollador principal de LANTERN. “Hay una suposición común de que si quieres una de estas cosas, no puedes tener la otra. Demostramos que a veces se pueden tener ambos”.

El problema que aborda el equipo del NIST se puede considerar como una interacción con una máquina compleja que contiene un panel de control gigante con miles de interruptores sin etiquetar: el dispositivo es un gen, una hebra de ADN que codifica una proteína; los interruptores son pares de bases en la hebra. Todos los interruptores afectan la salida del dispositivo de alguna manera. ¿Qué interruptores debería accionar si su trabajo es hacer que la máquina funcione de manera diferente de cierta manera?

Debido a que la respuesta puede requerir cambios en varios pares de bases, los científicos deben cambiar una combinación de estos, medir el resultado, luego elegir una nueva combinación y medir nuevamente. El número de permutaciones es desalentador.

«La cantidad de combinaciones posibles puede ser mayor que la cantidad de átomos en el universo», dijo Tonner. “Nunca podrías medir todas las posibilidades. Es un número ridículamente grande”.

Debido al gran volumen de datos involucrados, a las DNN se les ha encomendado la tarea de clasificar una muestra de datos y predecir qué pares de bases deben invertirse. Se han probado a sí mismos, siempre y cuando no pidas una explicación de cómo obtienen sus respuestas. A menudo se les llama «cajas negras» porque su funcionamiento interno es opaco.

«Es realmente difícil entender cómo las DNN hacen sus predicciones», dijo el físico del NIST David Ross, uno de los coautores del artículo. «Y ese es un gran problema si quieres usar esas predicciones para desarrollar algo nuevo».

LANTERN, por otro lado, está explícitamente diseñado para ser comprensible. Parte de su explicabilidad proviene del uso de parámetros interpretables para representar los datos analizados. En lugar de permitir que la cantidad de estos parámetros se vuelva extraordinariamente grande y, a menudo, oscura, como es el caso de los DNN, cada parámetro en los cálculos de LANTERN tiene un propósito que pretende ser intuitivo y ayudar a los usuarios a comprender qué significan esos parámetros y cómo afectan las predicciones de LANTERN. .

El modelo LINTERNA representa mutaciones de proteínas utilizando vectores, herramientas matemáticas ampliamente utilizadas que a menudo se representan visualmente como flechas. Cada flecha tiene dos propiedades: su dirección implica el efecto de la mutación, mientras que su longitud indica qué tan fuerte es ese efecto. Cuando dos proteínas tienen vectores que apuntan en la misma dirección, LINTERNA indica que las proteínas tienen una función similar.

Las direcciones de estos vectores a menudo se asignan a mecanismos biológicos. Por ejemplo, LANTERN aprendió una dirección relacionada con el plegamiento de proteínas en los tres conjuntos de datos que examinó el equipo. (El plegamiento juega un papel fundamental en el funcionamiento de una proteína, por lo que identificar este factor en los conjuntos de datos fue una indicación de que el modelo estaba funcionando según lo previsto). Al hacer predicciones, LANTERN simplemente une estos vectores, un método que los usuarios pueden rastrear al verificar sus predicciones

Otros laboratorios ya habían usado las DNN para hacer predicciones sobre qué interruptores producirían cambios útiles en las tres proteínas estudiadas, por lo que el equipo del NIST decidió comparar LANTERN con los resultados de las DNN. El nuevo enfoque no solo era lo suficientemente bueno; Según el equipo, alcanza un nuevo nivel de precisión de predicción para este tipo de problemas.

«LANTERN ha cumplido o superado casi todos los enfoques alternativos en términos de precisión de predicción», dijo Tonner. «Supera a todos los demás enfoques en la predicción de cambios en LacI y tiene una precisión de predicción comparable para GFP para todos menos uno». Para el SARS-CoV-2, tiene una mayor precisión de predicción que todas las alternativas, excepto un tipo de DNN, que alcanzó pero no superó la precisión de LANTERN”.

LANTERN descubre qué conjuntos de interruptores tienen el mayor impacto en un atributo particular de la proteína, por ejemplo, su estabilidad de plegamiento, y resume cómo el usuario puede modificar ese atributo para lograr el efecto deseado. En cierto modo, LANTERN convierte los numerosos interruptores del panel de control de nuestra máquina en unos pocos diales simples.

«Reduce miles de interruptores a quizás cinco pequeños diales que puede girar», dijo Ross. “Te dice que la primera perilla tendrá un gran efecto, la segunda un efecto diferente pero más pequeño, la tercera aún más pequeña, y así sucesivamente. Entonces, como ingeniero, me dice que puedo concentrarme en el primer y segundo dial para obtener el resultado deseado. LANTERN me explica todo esto y es increíblemente útil”.

Rajmonda Caceres, científica del Laboratorio Lincoln del MIT que está familiarizada con el método detrás de LANTERN, dijo que aprecia la interpretabilidad de la herramienta.

«No hay muchos métodos de IA aplicados a aplicaciones biológicas donde estén diseñados explícitamente para la interpretabilidad», dijo Cáceres, que no participa en el estudio del NIST. «Cuando los biólogos ven los resultados, pueden ver qué mutación está contribuyendo al cambio en la proteína. Este nivel de interpretación permite una investigación más interdisciplinaria, ya que los biólogos pueden comprender cómo aprende el algoritmo y pueden obtener más información sobre el sistema biológico que se está estudiando”.

Tonner dijo que si bien está contento con los resultados, LANTERN no es una panacea para el problema de explicabilidad de la IA. Una exploración más extensa de alternativas a las DNN beneficiaría el esfuerzo general para crear una IA confiable y explicable, dijo.

«En el contexto de la predicción de los efectos genéticos sobre la función de las proteínas, LANTERN es el primer ejemplo de algo que rivaliza con las DNN en poder predictivo y, sin embargo, es completamente interpretable», dijo Tonner. “Ofrece una solución específica a un problema específico. Esperamos que se aplique a otros y que este trabajo estimule el desarrollo de nuevos enfoques interpretables. No queremos que la IA predictiva siga siendo una caja negra”.



Related post

Conector Java para compartir delta y cómo funciona.

Conector Java para compartir delta y cómo funciona.

Creación de un mercado de datos abiertos A medida que ingresamos a este nuevo y valiente mundo digital, estamos seguros de…
Uso de nanodiscos coloidales para bioimpresión 3D de tejidos y modelos de tejidos

Uso de nanodiscos coloidales para bioimpresión 3D de tejidos…

29 de junio de 2022 (Noticias de Nanowerk) La impresión 3D/bioimpresión basada en extrusión es un enfoque prometedor para fabricar injertos…
Meta finalmente agrega la configuración de grabación de video Quest para desarrolladores

Meta finalmente agrega la configuración de grabación de video…

Meta Quest (anteriormente Oculus Quest) finalmente tiene configuraciones de grabación de video. Bueno, al menos para los desarrolladores. Una nueva actualización…

Leave a Reply

Tu dirección de correo electrónico no será publicada.