TPC25: KI's wachsende Rolle in Wissenschaft, multimodalen Daten & Nicht-LLMs
Die TPC25-Konferenz der letzten Woche rückte eine Reihe kritischer Fragen in den Vordergrund, die die Zukunft der künstlichen Intelligenz prägen, und ging über den Hype um große Sprachmodelle hinaus, um grundlegende Herausforderungen in Bezug auf Daten, Evaluierung und Verantwortlichkeit anzugehen. Eine Plenarsitzung mit vier angesehenen Rednern befasste sich damit, wie wissenschaftliche Entdeckungen mit KI beschleunigt werden können, während die Kontrolle gewahrt bleibt, der komplexen Aufgabe, die Ausgaben eines Sprachmodells auf seine Trainingsdaten zurückzuführen, der komplexen Vorstellung von Fairness, wenn KI Karten statt Text interpretiert, und den beispiellosen Möglichkeiten, wie diese hochentwickelten Systeme versagen können.
Prasanna Balaprakash, Direktor der KI-Programme am Oak Ridge National Laboratory (ORNL), beleuchtete das langjährige Engagement der Institution für KI, das bis ins Jahr 1979 zurückreicht. Er hob die historische Rolle von ORNL bei der Pionierarbeit für KI in wissenschaftlichen Anwendungen hervor, von frühen regelbasierten Expertensystemen bis hin zur Beherbergung leistungsstarker Supercomputer wie Titan und dem aktuellen Frontier, die mit Zehntausenden von GPUs ausgestattet sind. Heute priorisiert die KI-Initiative von ORNL den Aufbau gesicherter, effizienter KI-Modelle für wissenschaftliche Simulationen, experimentelle Einrichtungen und die nationale Sicherheit. Dies beinhaltet die Entwicklung robuster Methoden für Validierung, Verifizierung, Unsicherheitsquantifizierung und kausale Schlussfolgerungen, zusammen mit Strategien zur Skalierung großer Modelle auf Supercomputern und zur Bereitstellung kleinerer Modelle am Edge. Balaprakash betonte den Fokus von ORNL auf nicht-traditionelle Modalitäten, wie großskalige raumzeitliche Daten, die für Kernfusionssimulationen entscheidend sind, was zu Durchbrüchen wie dem Oak Ridge Base Foundational Model for Earth System Predictability führte, das einen Exascale-Durchsatz und Modelle mit bis zu 10 Milliarden Parametern erreichte – ein Novum für diese Art von Daten. Er erläuterte auch die Bemühungen um großskalige Graphen-Grundlagenmodelle für die Materialwissenschaft und die Integration von KI mit experimentellen Instrumenten, die eine Echtzeit-Datenverarbeitung und intelligente Steuerung von Experimenten zur Optimierung der Ressourcennutzung ermöglichen.
Mit dem Fokus auf das Innenleben großer Sprachmodelle stellte Jiacheng Liu vom Allen Institute for AI (AI2) OLMoTrace vor, ein innovatives System, das entwickelt wurde, um die „Black Box“ von LLMs zu öffnen. Dieses Tool, das in die offene OLMo-Modellfamilie von AI2 integriert ist, ermöglicht es Benutzern, die von einem LLM generierte Antwort direkt auf die spezifischen Segmente seines Billionen von Tokens umfassenden Trainingsdatensatzes zurückzuführen. Durch die Verwendung eines optimierten Indexierungssystems identifiziert OLMoTrace schnell exakte Übereinstimmungen zwischen Modellausgaben und ihren Quelldokumenten, wodurch es möglich wird, Informationen zu überprüfen, die Herkunft einer Modellantwort zu verstehen und sogar die Wurzeln von „Halluzinationen“ aufzudecken – Fälle, in denen Modelle fabrizierte Inhalte generieren. Liu demonstrierte, wie das System zeigte, dass ein Modell gelernt hatte, gefälschte Codeausführungsergebnisse aus Trainingsdialogen zu produzieren, in denen Studenten Ausgaben lieferten, ohne den Code tatsächlich auszuführen. Für Forscher und Praktiker ist dieses Maß an Transparenz von unschätzbarem Wert, um das Modellverhalten zu prüfen, die Einhaltung neuer KI-Governance-Regeln sicherzustellen und Studien zur mechanistischen Interpretierbarkeit durch die Verknüpfung von Verhaltensweisen auf hoher Ebene mit den zugrunde liegenden Daten zu ergänzen.
Eine ernüchterndere Perspektive auf die gesellschaftlichen Auswirkungen von KI kam von Ricardo Baeza-Yates, Direktor des BSC AI Institute, der einen kritischen Überblick über das gab, was er als „Verantwortungslose KI“ bezeichnet. Er argumentierte, dass aktuelle KI-Systeme anfällig für Fehler wie automatisierte Diskriminierung, die Verbreitung von Fehlinformationen und Ressourcenverschwendung sind, oft weil sie eher als Spiegel menschlichen Denkens denn als bloße prädiktive Engines behandelt werden. Baeza-Yates warnte davor, KI mit Begriffen wie „ethische KI“ zu anthropomorphisieren, und betonte, dass Ethik und Vertrauen inhärent menschliche Eigenschaften sind, und deren Zuschreibung an Maschinen die Verantwortung von ihren menschlichen Designern ablenkt. Er hob die eskalierenden Schäden generativer KI hervor, von Desinformation bis hin zu Urheberrechtsstreitigkeiten und psychischen Gesundheitsproblemen, und zitierte tragische Fälle, in denen Chatbots in Suizide verwickelt waren. Er unterstrich die Gefahr von „nicht-menschlichen Fehlern“ – Fehlern, die KI macht und die Menschen nicht machen würden, für die die Gesellschaft schlecht vorbereitet ist. Baeza-Yates behauptete, dass die Messung des KI-Erfolgs allein anhand der Genauigkeit unzureichend sei; stattdessen sollte der Fokus auf dem Verständnis und der Minderung von Fehlern liegen. Er stellte auch die Erzählung der KI-Demokratisierung in Frage und wies darauf hin, dass sprachliche und digitale Kluften einen Großteil der Weltbevölkerung effektiv vom Zugang zu führenden KI-Modellen ausschließen.
Schließlich sprach Dr. Kyoung Sook Kim, stellvertretende Direktorin des National Institute of Advanced Industrial Science and Technology (AIST) Japans, das kritische Thema der Fairness in der Geospatial AI (GeoAI) an. Da GeoAI zunehmend Satellitenbilder, städtische Infrastruktur und Umweltdaten für Anwendungen wie Katastrophenschutz und Stadtplanung interpretiert, wird die Gewährleistung gerechter Ergebnisse von größter Bedeutung. Dr. Kim erklärte, dass Geospatial-Systeme im Gegensatz zu Text- oder Bild-KI einzigartige Herausforderungen bei der Definition und Messung von Fairness darstellen. Ungleichmäßige Datenerfassung, Lücken in der räumlichen Abdeckung und voreingenommene Annahmen während des Modelltrainings können zu verzerrten Ergebnissen führen, die sich insbesondere auf die Ressourcenzuweisung und Planungsentscheidungen auswirken. Fairness in GeoAI, so argumentierte sie, kann keine Einheitslösung sein, sondern muss regionale Unterschiede, Bevölkerungsvariationen und die Qualität der verfügbaren Daten berücksichtigen. Sie betonte die Bedeutung der Überprüfung früher Designentscheidungen – wie Daten ausgewählt, beschriftet und verarbeitet werden –, um zu verhindern, dass Verzerrungen in die Systeme eingebettet werden. Dr. Kim plädierte für gemeinsame Rahmenwerke und internationale Standards, einschließlich neuer ISO-Bemühungen, um konsistente Definitionen von Fairness und Datenqualität zu etablieren, wobei sie anerkannte, dass der kontextuelle Charakter von Geografie, Geschichte und sozialer Komplexität einen nuancierten Ansatz beim Aufbau und der Anwendung dieser leistungsstarken Systeme erfordert.
Zusammenfassend signalisierten diese Diskussionen auf der TPC25 eine signifikante Entwicklung in der KI-Forschung. Da Modelle an Komplexität und Größe zunehmen, verlagert sich der Schwerpunkt von bloßen Leistungsbenchmarks auf ein tieferes Verständnis der Datenherkunft, eine rigorose Ausgabebewertung und die realen Auswirkungen von KI. Die Zukunft der KI, da waren sich diese Experten einig, hängt nicht nur von intelligenteren Algorithmen ab, sondern davon, wie verantwortungsbewusst und inklusiv sie entworfen, gebaut und eingesetzt werden.