MIT desvela cómo la IA de proteínas predice, abriendo la caja negra
En un avance significativo hacia la desmitificación de la inteligencia artificial en biología, investigadores del MIT han presentado un método novedoso para observar el funcionamiento interno de los modelos de lenguaje de proteínas. Estos sistemas avanzados de IA, similares a los grandes modelos de lenguaje (LLM) que impulsan herramientas como ChatGPT, se han vuelto indispensables en los últimos años para predecir estructuras y funciones de proteínas, ayudando en tareas que van desde la identificación de posibles objetivos de fármacos hasta el diseño de anticuerpos terapéuticos. Si bien son notablemente precisos, sus procesos de toma de decisiones han permanecido en gran medida opacos, un fenómeno de “caja negra” que ha limitado la capacidad de los investigadores para aprovechar plenamente su potencial.
El nuevo estudio, dirigido por el estudiante de posgrado del MIT Onkar Gujral y la autora principal Bonnie Berger, profesora de matemáticas y jefa del grupo de Computación y Biología del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, ofrece un avance crítico. Al iluminar las características específicas que estos modelos consideran al hacer predicciones, la investigación promete ayudar a los científicos a seleccionar modelos más efectivos para aplicaciones particulares, agilizando así el desarrollo de nuevos fármacos y candidatos a vacunas. Como enfatiza Berger, este trabajo tiene amplias implicaciones para mejorar la interpretabilidad de los sistemas de IA cruciales para las aplicaciones biológicas posteriores y podría incluso descubrir nuevas perspectivas biológicas. Los hallazgos se publican en las Actas de la Academia Nacional de Ciencias.
Los modelos de lenguaje de proteínas operan bajo principios similares a sus contrapartes basadas en texto. En lugar de analizar palabras, procesan grandes cantidades de secuencias de aminoácidos, aprendiendo patrones que les permiten predecir las características de las proteínas. Por ejemplo, el trabajo anterior de Berger en 2021 utilizó uno de estos modelos para identificar secciones de proteínas de superficie viral menos propensas a la mutación, identificando posibles objetivos de vacunas contra la influenza, el VIH y el SARS-CoV-2. Sin embargo, los mecanismos exactos detrás de estas predicciones seguían siendo un misterio.
Para abrir esta “caja negra” computacional, el equipo del MIT empleó una técnica conocida como autoencoder disperso, un tipo de algoritmo utilizado recientemente para arrojar luz sobre los LLM tradicionales. Las proteínas dentro de una red neuronal suelen estar representadas por patrones de activación a través de un número limitado de “nodos” o “neuronas”, de forma análoga a cómo el cerebro almacena información. Por ejemplo, una proteína podría estar representada por 480 de esos nodos. Un autoencoder disperso expande drásticamente esta representación, extendiéndola a un número mucho mayor de nodos, quizás 20.000. Esta expansión, combinada con una “restricción de dispersión”, permite que la información se extienda, asegurando que una característica previamente codificada por múltiples nodos ahora pueda ocupar un solo nodo dedicado. Esto hace que la activación de cada nodo individual sea mucho más significativa e interpretable.
Una vez generadas estas representaciones dispersas, los investigadores utilizaron un asistente de IA, Claude, para analizarlas. Claude comparó las representaciones recién explícitas con características proteicas conocidas, como la función molecular, la familia o la ubicación celular. A través de este análisis de miles de representaciones, Claude pudo identificar qué nodos específicos correspondían a características proteicas particulares y describirlos en un lenguaje claro y comprensible. Por ejemplo, la IA podría informar que una determinada neurona detecta proteínas involucradas en el transporte transmembrana de iones o aminoácidos, particularmente aquellas que se encuentran en la membrana plasmática. El estudio reveló que la familia de proteínas y varios procesos metabólicos y biosintéticos se encontraban entre las características más frecuentemente codificadas por estos nodos recién interpretables.
Esta nueva capacidad para comprender qué características prioriza un modelo de proteínas abre posibilidades apasionantes. Los investigadores ahora pueden elegir o ajustar modelos de manera más inteligente para preguntas de investigación específicas, optimizando su entrada para lograr resultados superiores. Además, a medida que estos modelos continúan avanzando en poder y sofisticación, la capacidad de diseccionar su lógica interna promete descubrir principios biológicos completamente nuevos, ampliando los límites de nuestra comprensión actual de las proteínas y de la vida misma.