KIs biologische Blindstellen: Genaktivitätsvorhersage scheitert

Arstechnica

Künstliche Intelligenz und maschinelles Lernen haben im Bereich der Biologie einige wirklich spektakuläre Erfolge erzielt, von der Entwicklung von Enzymen, die Kunststoffe verdauen können, bis zur Konstruktion von Proteinen, die Schlangengift blockieren können. In einer Ära des scheinbar grenzenlosen KI-Hypes könnte es verlockend sein anzunehmen, dass das bloße Entfesseln leistungsfähiger Algorithmen auf die immensen Datensätze, die wir bereits angesammelt haben, zu einem umfassenden Verständnis der meisten biologischen Prozesse führen würde, was uns möglicherweise erlauben würde, arbeitsintensive Experimente und die ethischen Komplexitäten der Tierforschung zu umgehen.

Doch Biologie umfasst weit mehr als nur Proteinstrukturen. Es ist viel zu früh zu behaupten, dass KI bei der Bewältigung aller Facetten dieser komplexen Wissenschaft gleichermaßen effektiv sein kann. Dieser Kontext macht eine aktuelle Studie besonders faszinierend. Forscher evaluierten eine Reihe von KI-Softwarepaketen, die darauf ausgelegt sind, vorherzusagen, wie aktiv Gene in Zellen unter verschiedenen Bedingungen sein würden. Wie sich herausstellte, schnitten diese hochentwickelten KI-Systeme nicht besser ab als eine bewusst vereinfachte Vorhersagemethode. Die Ergebnisse dienen als entscheidende Erinnerung daran, dass Biologie unglaublich komplex ist und der Erfolg bei der Entwicklung von KI-Systemen für einen spezifischen biologischen Aspekt deren allgemeine Anwendbarkeit im gesamten Feld nicht garantiert.

Die Studie wurde von einem Trio von Forschern aus Heidelberg geleitet: Constantin Ahlmann-Eltze, Wolfgang Huber und Simon Anders. Sie stellten fest, dass mehrere andere Studien, die während ihrer Arbeit im Preprint-Stadium veröffentlicht wurden, weitgehend ähnliche Schlussfolgerungen zogen. Der Ansatz des Heidelberger Teams ist besonders geradlinig, was ihn zu einer hervorragenden Veranschaulichung der aktuellen Einschränkungen macht.

Die in ihrer Forschung untersuchte KI-Software zielte darauf ab, Änderungen der Genaktivität vorherzusagen. Während jede Zelle Kopien der etwa 20.000 Gene im menschlichen Genom enthält, sind nicht alle zu jedem Zeitpunkt aktiv. „Aktiv“ bezieht sich in diesem Kontext auf Gene, die Boten-RNAs (mRNA) produzieren, die für Zellfunktionen entscheidend sind. Einige Gene sind ständig auf hohem Niveau aktiv und erfüllen essenzielle Funktionen, während andere nur in spezifischen Zelltypen, wie Nerven- oder Hautzellen, aktiv sind oder durch bestimmte Bedingungen wie niedrigen Sauerstoff oder hohe Temperaturen ausgelöst werden.

Über viele Jahre hinweg haben Wissenschaftler zahlreiche Studien durchgeführt, um die Aktivität jedes Gens in verschiedenen Zelltypen unter unterschiedlichen Bedingungen zu kartieren. Diese Untersuchungen reichen von der Verwendung von Gen-Chips zur Identifizierung, welche mRNAs in Zellpopulationen vorhanden sind, bis zur Sequenzierung von RNAs aus einzelnen Zellen, um aktive Gene zu lokalisieren. Zusammenfassend hat diese Forschung ein breites, wenn auch unvollständiges Bild aufgebaut, das die Genaktivität mit verschiedenen biologischen Umständen verbindet. Dieser riesige Datenspeicher könnte theoretisch dazu verwendet werden, eine KI zu trainieren, um die Genaktivität unter ungetesteten Bedingungen vorherzusagen.

Ahlmann-Eltze, Huber und Anders testeten speziell sogenannte Einzelzell-Grundlagenmodelle, die auf dieser Art von Genaktivitätsdaten trainiert wurden. Die Bezeichnung „Einzelzell“ weist darauf hin, dass die Modelle aus der in einzelnen Zellen beobachteten Genaktivität gelernt haben, anstatt über Zellpopulationen gemittelt zu werden. „Grundlagenmodelle“ impliziert, dass sie auf einem breiten Datenspektrum trainiert wurden, aber eine weitere Feinabstimmung für spezifische Aufgaben erfordern.

Die spezifische Aufgabe für diese Modelle bestand darin, vorherzusagen, wie sich die Genaktivität ändern könnte, wenn Gene absichtlich verändert werden. Wenn ein einzelnes Gen verloren geht oder aktiviert wird, ist manchmal nur die mRNA dieses Gens betroffen. Einige Gene kodieren jedoch Proteine, die ganze Sammlungen anderer Gene regulieren, was zu Änderungen in der Aktivität Dutzender von Genen führt. In anderen Fällen kann die Veränderung eines Gens den gesamten Stoffwechsel einer Zelle beeinflussen, was zu weitreichenden Verschiebungen in der Genaktivität führt. Die Komplexität steigt weiter, wenn zwei Gene beteiligt sind. Oft sind ihre Effekte einfach additiv – die Summe der durch jede einzelne Änderung verursachten Veränderungen. Aber wenn sich ihre Funktionen überschneiden, kann das Ergebnis eine synergistische Verstärkung einiger Änderungen, die Unterdrückung anderer oder völlig unerwartete Modifikationen sein.

Um diese komplexen Effekte zu erforschen, haben Forscher historisch die CRISPR-Gen-Editing-Technologie verwendet, um die Aktivität eines oder mehrerer Gene absichtlich zu verändern. Anschließend sequenzieren sie alle zellulären RNAs, um die resultierenden Veränderungen zu beobachten. Dieser Ansatz, als Perturb-seq bezeichnet, bietet wertvolle Einblicke in die Funktion eines Gens innerhalb einer Zelle. Für Ahlmann-Eltze, Huber und Anders lieferte er die entscheidenden Daten, die benötigt wurden, um festzustellen, ob ihre ausgewählten Grundlagenmodelle trainiert werden konnten, um diese nachgeschalteten Änderungen in anderen Genaktivitäten vorherzusagen.

Beginnend mit den vorab trainierten Grundlagenmodellen führten die Forscher ein zusätzliches Training unter Verwendung von Daten aus Experimenten durch, bei denen ein oder zwei Gene mit CRISPR aktiviert wurden. Dieser Trainingsdatensatz enthielt Informationen aus 100 einzelnen Genaktivierungen und 62 Fällen, in denen zwei Gene gleichzeitig aktiviert wurden. Die KI-Pakete wurden dann beauftragt, die Ergebnisse für weitere 62 Paare aktivierter Gene vorherzusagen. Zum Vergleich erzeugten die Forscher auch Vorhersagen unter Verwendung von zwei bemerkenswert einfachen Modellen: eines, das immer keine Änderung der Genaktivität vorhersagte, und eines, das immer einen einfachen additiven Effekt vorhersagte (was bedeutet, dass die Aktivierung der Gene A und B die kombinierten Änderungen der Aktivierung von A plus der Aktivierung von B hervorrufen würde).

Die Ergebnisse waren enttäuschend. „Alle Modelle hatten einen Vorhersagefehler, der wesentlich höher war als die additive Baseline“, schlussfolgerten die Forscher. Dieses Ergebnis blieb auch dann bestehen, wenn alternative Messungen der KI-Vorhersagegenauigkeit verwendet wurden. Das Kernproblem schien die Unfähigkeit der trainierten Grundlagenmodelle zu sein, komplexe Änderungsmuster genau vorherzusagen, insbesondere wenn die Veränderungen von Genpaaren synergistische Wechselwirkungen hervorriefen. „Die Deep-Learning-Modelle sagten selten synergistische Wechselwirkungen voraus, und es war noch seltener, dass diese Vorhersagen korrekt waren“, erklärten die Forscher. In einem separaten Test, der sich speziell auf diese Gensynergien konzentrierte, schnitt keines der KI-Modelle besser ab als das vereinfachte System, das lediglich keinerlei Änderungen vorhersagte.

Die Gesamtschlussfolgerungen dieser Arbeit sind unmissverständlich klar. Wie die Forscher selbst schrieben: „Da unsere bewusst einfachen Baselines nicht in der Lage sind, realistische biologische Komplexität darzustellen, und dennoch nicht von den Grundlagenmodellen übertroffen wurden, kommen wir zu dem Schluss, dass das Ziel letzterer, eine generalisierbare Darstellung zellulärer Zustände zu liefern und das Ergebnis noch nicht durchgeführter Experimente vorherzusagen, immer noch schwer fassbar ist.“ Es ist wichtig zu betonen, dass „immer noch schwer fassbar“ nicht bedeutet, dass es niemals möglich sein wird, eine KI zu entwickeln, die bei diesem Problem helfen kann. Es bedeutet auch nicht, dass diese Erkenntnisse für alle zellulären Zustände oder, noch weniger, für die gesamte Biologie gelten. Die Studie liefert jedoch eine wertvolle Warnung in einer Zeit, in der immense Begeisterung für die Idee besteht, dass der Erfolg der KI in einigen spezifischen Bereichen eine Welt ankündigt, in der sie universell angewendet werden kann.