Modelo de IA del MIT predice la solubilidad molecular con alta precisión
Predecir qué tan bien se disolverá una molécula en un líquido particular, una propiedad conocida como solubilidad, es un desafío fundamental en química, especialmente en la creación de nuevos productos farmacéuticos. Este paso crucial, a menudo un cuello de botella en el diseño y la fabricación de fármacos, dicta todo, desde la eficiencia de las reacciones químicas hasta el perfil de seguridad del proceso de producción. Ahora, ingenieros químicos del MIT han presentado un sofisticado modelo computacional que mejora significativamente esta capacidad predictiva, prometiendo acelerar el descubrimiento de fármacos y promover el uso de solventes menos peligrosos en la industria.
Durante décadas, los químicos han confiado en modelos como el Modelo de Solvatación de Abraham para estimar la solubilidad, que agrega las contribuciones de las estructuras químicas internas de una molécula. Aunque útiles, estos métodos tradicionales ofrecen una precisión limitada. Más recientemente, el aprendizaje automático ha entrado en juego, con avances como SolProp, un modelo desarrollado en el laboratorio de William Green en el MIT en 2022. SolProp mejoró los métodos anteriores al predecir propiedades relacionadas y combinarlas utilizando principios termodinámicos. Sin embargo, tuvo dificultades para pronosticar con precisión la solubilidad de moléculas que no había encontrado durante su entrenamiento, un obstáculo significativo para las nuevas líneas de desarrollo de fármacos.
El impulso para el nuevo modelo surgió de un proyecto colaborativo de los estudiantes de posgrado del MIT Lucas Attia y Jackson Burns durante un curso sobre la aplicación del aprendizaje automático a la ingeniería química. Su avance fue facilitado en gran medida por el lanzamiento de BigSolDB en 2023, un conjunto de datos completo que recopila información de solubilidad de casi 800 artículos publicados. Este recurso invaluable incluyó datos sobre aproximadamente 800 moléculas disueltas en más de 100 solventes orgánicos comunes, abarcando más de 40.000 puntos de datos e incluso teniendo en cuenta la influencia crítica de la temperatura en la solubilidad.
Attia y Burns entrenaron dos modelos distintos de aprendizaje automático con este extenso conjunto de datos. Ambos modelos representan estructuras moleculares utilizando “incrustaciones” (embeddings), representaciones numéricas que capturan detalles como el recuento de átomos y las disposiciones de los enlaces, lo que permite a los modelos predecir varias propiedades químicas. Un enfoque, FastProp, desarrollado por Burns y otros en el laboratorio de Green, utiliza “incrustaciones estáticas”, donde la representación molecular está predeterminada. El segundo, ChemProp, un modelo desarrollado en el MIT ya utilizado en el descubrimiento de antibióticos y otras aplicaciones, aprende estas incrustaciones durante el propio proceso de entrenamiento, asociando simultáneamente las características moleculares con propiedades como la solubilidad.
Cuando se probaron en un conjunto de 1.000 solutos retenidos de los datos de entrenamiento, ambos nuevos modelos demostraron una precisión notable, superando a SolProp de dos a tres veces. Su capacidad para predecir con precisión variaciones sutiles en la solubilidad debido a la temperatura, incluso en medio de un ruido experimental sustancial, fue un indicador particularmente fuerte de sus sólidas capacidades de aprendizaje, según Burns. Sorprendentemente, a pesar de las ventajas teóricas del aprendizaje adaptativo de ChemProp, ambos modelos tuvieron un rendimiento prácticamente idéntico. Esta paridad inesperada sugiere que la principal limitación de su rendimiento no son los modelos en sí, sino la variabilidad inherente y la calidad de los datos de entrenamiento subyacentes, a menudo compilados de diversos laboratorios que utilizan diferentes condiciones experimentales.
Apodado FastSolv, el modelo basado en FastProp fue elegido para su lanzamiento público debido a su velocidad y código adaptable. Ya se ha puesto a disposición de forma gratuita y actualmente está siendo adoptado por numerosas empresas farmacéuticas. Este desarrollo promete agilizar el proceso de descubrimiento de fármacos, permitiendo a los químicos seleccionar de manera más eficiente los solventes óptimos para las reacciones. Crucialmente, también permite la identificación de alternativas menos peligrosas a los solventes industriales de uso común, abordando una importante preocupación ambiental y de seguridad. Como señala Burns, el modelo es “extremadamente útil para poder identificar el siguiente mejor solvente, que con suerte es mucho menos dañino para el medio ambiente”.
La investigación, supervisada por William Green, profesor Hoyt Hottel de Ingeniería Química y director de la Iniciativa Energética del MIT, y coescrita por Patrick Doyle, profesor Robert T. Haslam de Ingeniería Química, se publicó hoy en Nature Communications. Financiado en parte por el Departamento de Energía de EE. UU., este avance marca un paso fundamental hacia una síntesis química más eficiente, segura y consciente del medio ambiente en una variedad de industrias.