HRM: Winzige KI übertrifft ChatGPT um 100x im Denken
Ein neues Modell künstlicher Intelligenz, das von der in Singapur ansässigen Firma Sapient Intelligence entwickelt wurde, stellt die vorherrschende „größer ist besser“-Philosophie in der KI-Entwicklung in Frage. Dieses innovative Modell, das Hierarchische Denkmodell (HRM) genannt wird, lässt sich von der Architektur des menschlichen Gehirns inspirieren, um komplexe Denkprobleme mit bemerkenswerter Effizienz zu lösen.
Im Gegensatz zu vielen zeitgenössischen großen Sprachmodellen, die oft auf einer „flachen“ Architektur und schrittweiser „Chain-of-Thought“ (CoT)-Prompting basieren, nimmt HRM eine hierarchische Struktur an. Forscher stellen fest, dass CoT-Methoden fehleranfällig sein können, wenn ein einziger Schritt schiefgeht. HRM hingegen ahmt den Ansatz des Gehirns mit zwei unterschiedlichen, miteinander verbundenen Modulen nach: einem hochrangigen „Planer“, der sich langsamem, strategischem Denken widmet (ähnlich der Planung eines Schachzugs), und einem niedrigrangigen „Arbeiter“, der schnelle Berechnungen durchführt (wie die sofortige Gesichtserkennung). Dieses Design ermöglicht es HRM, komplexe Probleme in einem einzigen Durchgang tiefgehend zu verarbeiten und aus einer begrenzten Anzahl von Beispielen zu lernen, ohne umfangreiches Vortraining auf riesigen Datensätzen zu benötigen.
Trotz seiner bemerkenswert geringen Größe von nur 27 Millionen Parametern hat HRM in verschiedenen Benchmarks überlegene Denkfähigkeiten gezeigt. Beim ARC-AGI-Benchmark, der oft als IQ-Test für KI gilt, erreichte HRM eine Punktzahl von 40,3 % und übertraf damit OpenAIs o3-mini-high (34,5 %) und Claude 3.7 (21,2 %) deutlich. Die Leistung des Modells war bei spezialisierten Aufgaben noch ausgeprägter: Es löste erfolgreich 55 % der Sudoku-Extreme-Rätsel und fand den optimalen Pfad in 74,5 % der 30x30-Labyrinthe, während Claude 3.7 und o3-mini-high bei beiden 0 % erzielten. Um die Effizienz von HRM ins rechte Licht zu rücken: Das ursprüngliche GPT-1-Modell verfügte über 117 Millionen Parameter, mehr als viermal so viele wie HRM. Einer der Schöpfer von HRM, Guan Wang, hob sein schlankes Design hervor und bemerkte, dass es in nur zwei GPU-Stunden trainiert werden kann, um Sudoku auf professionellem Niveau zu lösen.
Die Auswirkungen des Erfolgs von HRM sind erheblich. Es deutet darauf hin, dass architektonische Innovationen zu erheblichen Fortschritten in der KI führen und die Abhängigkeit von massiven Rechenressourcen potenziell verringern können. Dies könnte zu einer erschwinglicheren KI-Bereitstellung führen, die es fortschrittlichen Modellen ermöglicht, effizient auf einer einzigen GPU zu laufen, und zu drastisch schnelleren Trainingszeiten, gemessen in Stunden statt in Monaten. Darüber hinaus verspricht das Design von HRM verbesserte Denkfähigkeiten ohne die Notwendigkeit einer unerschwinglich teuren Computerinfrastruktur. Der Code des Modells ist ebenfalls Open-Source, was einen breiteren Zugang und weitere Entwicklung fördert.
Während einige Skeptiker argumentieren, dass die derzeitigen Fähigkeiten von HRM zu spezialisiert sein könnten, deutet seine frühe Leistung auf eine vielversprechende Richtung für die KI-Forschung hin. Dieser vom Gehirn inspirierte Ansatz ist Teil eines breiteren Trends zur Erforschung alternativer KI-Architekturen, darunter Sakana’s Continuous Thought Machines, 1-Bit-LLMs (Bitness) und Diffusionsmodelle, mit denen Google aktiv experimentiert. Diese aufkommenden Architekturen, obwohl sie sich derzeit in einem frühen Stadium befinden, deuten auf eine Zukunft hin, in der fortschrittliche KI nicht ausschließlich auf große Rechenzentren beschränkt ist, sondern effizient auf lokalen Maschinen betrieben werden kann, wodurch der Zugang zu leistungsstarker künstlicher Intelligenz demokratisiert wird.