TPC25: KI für die Wissenschaft – Exascale, Quanten & Zukunftspläne
Die TPC25-Konferenz brachte kürzlich führende Forscher mit einem gemeinsamen Ziel zusammen: Künstliche Intelligenz auf Grenzskala in ein praktisches Werkzeug für wissenschaftliche Entdeckungen zu verwandeln. Die Diskussionen während der Woche beleuchteten sowohl das immense Versprechen als auch die erheblichen Hürden, die bei diesem ehrgeizigen Vorhaben noch vor uns liegen.
Jenseits der reinen Geschwindigkeit: Wissenschaftstaugliche KI entwickeln
Satoshi Matsuoka, Direktor des RIKEN Center for Computational Science, betonte, dass die heutigen kommerziellen Grundlagenmodelle lediglich ein Ausgangspunkt für wissenschaftliche Anwendungen sind. Matsuoka sprach im Namen des RIKEN AI for Science Teams und erläuterte kritische Lücken in der Datenverarbeitung, im Modellentwurf und in der Workflow-Orchestrierung, die behoben werden müssen, bevor große Sprach- und Lernmodelle zuverlässig der wissenschaftlichen Forschung dienen können.
RIKEN baut aktiv die Infrastruktur auf, um diese Vision zu unterstützen. Während sein Supercomputer Fugaku mit 60.000 CPU-Knoten weltweit führend bleibt, erweitert das Zentrum seine Fähigkeiten mit einem neuen GPU-Komplex, der etwa 1.500 Nvidia Blackwell-Beschleuniger und Hunderte weitere GPUs und TPUs umfasst. RIKEN betreibt außerdem drei Quantensysteme und plant ein zukünftiges System, das bis 2029 Zettascale-Computing (10^21 Operationen pro Sekunde) erreichen soll.
Matsuoka betonte, dass reine Rechengeschwindigkeit allein nicht ausreicht. Wissenschaftliche KI-Modelle müssen komplexe wissenschaftliche Daten und Workflows von Natur aus verstehen. Im Gegensatz zu kommerziellen Allzweckmodellen erfordern wissenschaftliche Anwendungen in Physik, Chemie und Biologie spezialisierte Funktionen. Wissenschaftliche Daten kombinieren oft Text, Gleichungen, Bilder und Sensorströme, häufig im Terabyte-Bereich. Aktuelle KI-Systeme haben Schwierigkeiten mit domänenspezifischen Symbolen, Einheiten, sehr langen Sequenzen und ultrahochauflösenden wissenschaftlichen Bildern. Um dies zu überwinden, plädierte Matsuoka für benutzerdefinierte Token-Vokabulare, dünne Aufmerksamkeitsmechanismen und physikbewusste Decoder, die Kontextfenster weit über die typischen Grenzen hinaus verarbeiten können.
RIKEN erforscht praktische Methoden zur Verbesserung der Modelleffizienz und des Datenverständnisses, einschließlich fortschrittlicher Datenkomprimierungstechniken wie Quadtree-Tiling und raumfüllenden Kurven für hochauflösende Bilder. Diese Methoden bieten erhebliche Rechenersparnisse ohne Genauigkeitsverlust, erfordern jedoch neue Compiler- und Speicherunterstützung. Für multimodale Daten entwickelt das Team hybride Operatoren, die neuronale Netze mit traditionellen Differentialgleichungslösern kombinieren. Matsuoka hob auch eine Verschiebung von monolithischen, riesigen Modellen hin zu einem vielfältigeren Spektrum aufgabenoptimierter Modelle hervor, einschließlich Mixture-of-Experts-Architekturen und fein abgestimmter Domänenmodelle, wobei das Schlussfolgern während der Inferenz betont wird, um Kosten zu senken und die Robustheit zu verbessern.
Entdeckung freisetzen mit generativer Quanten-KI
Steve Clark, Head of AI bei Quantinuum, untersuchte das transformative Potenzial, wenn Quantencomputing und KI konvergieren. Er skizzierte Quantinuums Strategie für „generative Quanten-KI“, die sich auf drei synergetische Ansätze konzentriert.
Erstens wird KI eingesetzt, um das Quantencomputing selbst zu optimieren. Maschinelle Lerntechniken, wie tiefes Reinforcement Learning, werden auf Herausforderungen wie die Kompilierung von Quantenschaltkreisen, die Reduzierung der Anzahl kostspieliger Quantengatter und die Verbesserung der optimalen Steuerung und Fehlerkorrektur auf tatsächlicher Quantenhardware angewendet.
Zweitens untersucht Clarks Team, wie Quantensysteme völlig neue Formen von KI antreiben können. Dies beinhaltet die Neugestaltung neuronaler Netze, um nativ auf Quantenhardware zu arbeiten, wobei Quanteneigenschaften wie Superposition genutzt werden, um Informationen auf fundamental unterschiedliche Weise zu verarbeiten und Modelle ohne direkte klassische Analogie zu erstellen.
Drittens beinhaltet die Strategie das Training von KI-Modellen mit Daten, die von Quantencomputern generiert werden. Dies ermöglicht es der KI, Muster zu lernen, die klassische Systeme nicht erzeugen können. Ein Beispiel ist der Generative Quantum Eigensolver, bei dem ein Transformer-Modell iterativ Quantenschaltkreise vorschlägt, um den Grundzustand eines Moleküls zu finden – eine Methode, die in Chemie, Materialwissenschaft und Optimierung anwendbar ist.
KIs Mainstream-Aufstieg im HPC, doch Herausforderungen bleiben bestehen
Earl C. Joseph, CEO von Hyperion Research, präsentierte Umfrageergebnisse, die die schnelle Integration von KI in Hochleistungsrechenumgebungen (HPC) hervorheben. Die KI-Adoption im HPC ist von etwa einem Drittel der Standorte im Jahr 2020 auf über 90 % im Jahr 2024 angestiegen und hat sich von experimentellen Phasen zu einem Mainstream-Einsatz für Aufgaben wie Simulationsverbesserung und groß angelegte Datenanalyse in Regierung, Wissenschaft und Industrie entwickelt.
Dieses Wachstum geht Hand in Hand mit einer zunehmenden Cloud-Adoption, da Organisationen Cloud-Dienste nutzen, um die hohen Kosten und die schnelle Veralterung von Spitzentechnologie-Hardware, insbesondere GPUs, zu mindern. Die Cloud bietet Zugang zu Hardware der aktuellen Generation und größere Flexibilität, wodurch der Bedarf an langfristigen On-Premise-Investitionen reduziert wird.
Trotz dieser Expansion bleiben erhebliche Hindernisse bestehen. Die am häufigsten genannte Herausforderung ist die Qualität der Trainingsdaten, die zahlreiche KI-Projekte zum Stillstand gebracht hat. Joseph zitierte die Mayo Clinic als Beispiel für eine Organisation, die dieses Risiko mindert, indem sie ausschließlich eigene, geprüfte Daten zum Training kleinerer, hochwertiger Sprachmodelle verwendet. Weitere hartnäckige Probleme sind ein Mangel an internem KI-Fachwissen, unzureichende Trainingsdatenskalierung und die inhärente Komplexität der Integration von KI in bestehende HPC-Umgebungen. Joseph prognostizierte, dass diese Komplexität das Wachstum eines neuen Marktes für domänenspezifische KI-Software und Beratungsdienste vorantreiben wird. Hyperions Studien zeigen, dass 97 % der befragten Organisationen planen, ihren KI-Einsatz trotz steigender Kosten zu erweitern, was den Bedarf an erheblichen Budgeterhöhungen unterstreicht, da die KI-Infrastruktur teurer wird.
KI-Risiken mit On-Premise-Lösungen mindern
Jens Domke, Teamleiter des Supercomputing Performance Research Teams bei RIKEN, sprach eine deutliche Warnung vor dem oft übersehenen Aspekt der Risikominderung bei der eiligen Bereitstellung von KI für wissenschaftliche Zwecke aus. Er skizzierte fünf Schlüsselrisikofaktoren: menschliches Versagen, KI-Software-Schwachstellen, Schwachstellen in der Lieferkette, inhärente Modellrisiken und externe Bedrohungen wie rechtliche Probleme und Diebstahl.
Domke lieferte Beispiele aus der Praxis, darunter vertrauliche Datenlecks von Unternehmen, die cloudbasierte KI-Dienste nutzen, und Sicherheitsverletzungen, die große KI-Anbieter betrafen. Er hob auch hervor, wie schnell entwickelte KI-Software oft keine robuste Sicherheit aufweist, und zitierte Fälle, in denen grundlegende Sicherheitsprotokolle übersehen wurden. Die Komplexität moderner KI-Workflows, die Dutzende von Softwarepaketen umfassen können, erweitert die Angriffsfläche zusätzlich.
Als Reaktion auf diese allgegenwärtigen Risiken entwickelt RIKEN eine eigene On-Premise-KI-Managementfunktion, die als sichere, privatisierte Alternative zu kommerziellen Cloud-KI-Angeboten konzipiert ist. Diese interne Lösung zielt darauf ab, die Funktionalität externer Dienste zu replizieren und gleichzeitig die Risiken von Datenlecks, Hacking und Datenexfiltration zu eliminieren.
RIKENs Infrastruktur wird auf Open-Source-Komponenten aufgebaut sein und mehrstufige Sicherheitsenklaven aufweisen. Eine semi-offene Stufe bietet breite Nutzbarkeit hinter einer sicheren Firewall, ähnlich kommerziellen Diensten, jedoch in einer kontrollierten Umgebung. Höhere Sicherheitsstufen werden für hochvertrauliche Operationen reserviert, wie medizinische oder sensible interne Forschung. Das Kernprinzip ist “nichts vertrauen”, wobei alle Modelle und Dienste containerisiert, in privaten Netzwerken isoliert und über sichere Reverse-Proxys zugänglich sind. Dieser Ansatz bietet RIKEN die volle Kontrolle über seine Daten und Modelle und ermöglicht eine einfache Integration von Open-Source-Modellen und benutzerdefinierten, fein abgestimmten Modellen ohne externe Einschränkungen.
Der Weg nach vorn
Aus den verschiedenen Perspektiven, die auf der TPC25 geteilt wurden, ergab sich eine konsistente Botschaft: Reine Rechenskala allein reicht nicht aus, um das volle Potenzial der wissenschaftlichen KI auszuschöpfen. Der Weg nach vorn erfordert domänenoptimierte Modelle, nahtlose hybride klassisch-quanten Workflows, strenge Datenqualitätsstandards und robuste, proaktive Risikokontrollen. Das kommende Jahr wird entscheidend sein, um diese Erkenntnisse in gemeinsame Werkzeuge und Gemeinschaftsstandards umzusetzen. Wenn die auf der TPC25 gezeigte Dynamik anhält, wird die wissenschaftliche Gemeinschaft KI-Systemen näherkommen, die Entdeckungen beschleunigen, ohne das Vertrauen zu gefährden.