Indiens Doppelweg in der KI: Open Source & Eigenentwicklung

Livemint

Indien schlägt einen eigenständigen Kurs ein, um sich als führende Macht im Bereich der künstlichen Intelligenz zu etablieren, indem es eine pragmatische zweigleisige Strategie verfolgt, die anderen Nationen des Globalen Südens als Blaupause dienen könnte. Dieser Ansatz balanciert den sofortigen Nutzen mit langfristiger technologischer Souveränität – eine Notwendigkeit, die durch jüngste geopolitische Ereignisse unterstrichen wird, wie Microsofts abrupten Entzug von Diensten für den von Russland unterstützten indischen Raffineriebetreiber Nayara Energy im letzten Monat, was die Anfälligkeit der Abhängigkeit von ausländischer digitaler Infrastruktur aufzeigte.

Der Kern von Indiens KI-Ambition wurde auf Googles I/O Connect-Veranstaltung in Bengaluru im Juli prominent zur Schau gestellt, wo der Schwerpunkt fest auf der Entwicklung von KI-Fähigkeiten lag, die auf Indiens tiefgreifende sprachliche Vielfalt zugeschnitten sind. Mit 22 Amtssprachen und Hunderten von gesprochenen Dialekten stellt die Schaffung von KI-Systemen, die diese mehrsprachige Landschaft effektiv navigieren können, eine gewaltige Herausforderung dar. Startups wie Sarvam AI präsentierten Sarvam-Translate, ein mehrsprachiges Modell, das auf Googles Open-Source-Large-Language-Model (LLM) Gemma feinabgestimmt wurde, um dieses Problem anzugehen. Ähnlich demonstrierte CoRover BharatGPT, einen Chatbot für öffentliche Dienste, einschließlich der Indian Railway Catering and Tourism Corporation (IRCTC). Google kündigte auch Kooperationen mit Sarvam, Soket AI und Gnani an, die alle Gemma nutzen, um indische KI-Modelle der nächsten Generation zu entwickeln.

Diese Abhängigkeit von einem im Ausland entwickelten Modell wie Gemma mag paradox erscheinen, zumal drei dieser Startups auch dazu bestimmt sind, Indiens grundlegende Large Language Models von Grund auf im Rahmen der ₹10.300 Crore IndiaAI Mission aufzubauen. Diese Regierungsinitiative zielt darauf ab, selbst entwickelte Modelle zu fördern, die auf indischen Daten, Sprachen und Werten trainiert werden. Die Entscheidung, bestehende Open-Source-Modelle zu verwenden, ist jedoch im Pragmatismus verwurzelt. Wettbewerbsfähige Modelle von Grund auf neu zu entwickeln, ist ressourcenintensiv und zeitaufwändig. Angesichts Indiens sich entwickelnder Computerinfrastruktur, begrenzter hochwertiger Trainingsdatensätze und drängender Marktanforderungen erweist sich ein geschichteter Ansatz als praktikabler. Startups stimmen Open-Source-Modelle fein ab, um unmittelbare, reale Probleme zu lösen, während sie gleichzeitig die Datenpipelines, Benutzer-Feedback-Schleifen und domänenspezifisches Fachwissen aufbauen, die erforderlich sind, um im Laufe der Zeit wirklich indigene und unabhängige Modelle zu kultivieren. Feinabstimmung beinhaltet die Anpassung eines vorab trainierten allgemeinen LLM, um sich auf spezifische, oft lokale Datensätze zu spezialisieren und so seine Leistung in bestimmten Kontexten zu verbessern.

Diese Doppelstrategie wird durch Initiativen wie Project EKA veranschaulicht, ein Open-Source-Community-Projekt, das von Soket AI in Zusammenarbeit mit IIT Gandhinagar, IIT Roorkee und IISc Bangalore geleitet wird. EKA wird von Grund auf neu entwickelt, wobei Code, Infrastruktur und Datenpipelines vollständig aus Indien stammen. Ein 7-Milliarden-Parameter-Modell wird innerhalb von vier bis fünf Monaten erwartet, gefolgt von einem 120-Milliarden-Parameter-Modell innerhalb von zehn Monaten. Abhishek Upperwal, Mitbegründer von Soket AI, bemerkte, dass sich das Projekt auf vier kritische Bereiche konzentriert: Landwirtschaft, Recht, Bildung und Verteidigung, jeweils mit einer definierten Datensatzstrategie, die auf Regierungsempfehlungen und Anwendungsfällen des öffentlichen Sektors basiert. Ein Hauptmerkmal von EKA ist seine vollständige Unabhängigkeit von ausländischer Infrastruktur, wobei das Training in Indiens GPU-Cloud durchgeführt wird und die resultierenden Modelle Open Source sind. Doch in einem pragmatischen Schritt hat Soket Gemma für erste Bereitstellungen genutzt, wobei Upperwal klarstellte, dass das Ziel darin besteht, zu booten und bei Bedarf auf souveräne Stacks umzusteigen.

CoRovers BharatGPT spiegelt diesen doppelten Ansatz wider. Es arbeitet derzeit mit einem feinabgestimmten Modell und bietet konversationelle KI-Dienste in mehreren indischen Sprachen für Regierungskunden wie IRCTC und Life Insurance Corporation an. Gründer Ankush Sabharwal betonte die Notwendigkeit eines schnell feinabstimmbaren Basismodells für kritische Anwendungen im öffentlichen Gesundheitswesen, bei der Eisenbahn und im Weltraum, während er auch die Entwicklung ihres eigenen grundlegenden LLM unter Verwendung indischer Datensätze bestätigte. Diese Bereitstellungen dienen nicht nur als Dienstleistungsmechanismen, sondern auch als entscheidende Wege zur Datenerstellung, die heute die Zugänglichkeit verbessern und gleichzeitig eine Brücke zu zukünftigen souveränen Systemen schlagen. Sabharwal erklärte, dass der Prozess mit einem Open-Source-Modell beginnt, das dann feinabgestimmt, für Sprachverständnis und Domänenrelevanz verbessert und schließlich durch ein proprietäres souveränes Modell ersetzt wird.

Amlan Mohanty, ein Experte für Technologiepolitik, beschreibt Indiens Strategie als ein „Experiment des Kompromisses“ – die Nutzung von Modellen wie Gemma für eine schnelle Bereitstellung, ohne das langfristige Ziel der Autonomie aufzugeben. Dieser Ansatz zielt darauf ab, die Abhängigkeit von potenziell gegnerischen Nationen zu reduzieren, die kulturelle Repräsentation zu gewährleisten und die Zuverlässigkeit von Partnerschaften mit Verbündeten zu testen.

Der Antrieb für indigene KI in Indien geht über den Nationalstolz hinaus; es geht darum, einzigartige Probleme anzugehen, die ausländische Modelle oft nicht erfassen. Man stelle sich einen Migranten im ländlichen Maharashtra vor, der medizinischen Rat sucht. Ein ausländisches KI-Tool, das auf westlichen Daten trainiert wurde, könnte Erklärungen auf Englisch mit einem Cupertino-Akzent liefern und medizinische Annahmen verwenden, die nicht mit indischen Körpertypen oder lokaler medizinischer Terminologie übereinstimmen. Eine solche Diskrepanz unterstreicht die entscheidende Notwendigkeit von KI, die lokale Sprachen, kulturelle Nuancen und physiologische Kontexte versteht – sei es für einen Gesundheitsmitarbeiter in Bihar, der ein KI-Tool benötigt, das Maithili-Medizinbegriffe versteht, oder einen Bauern in Maharashtra, der Ernteberatung benötigt, die mit staatsspezifischen Bewässerungsplänen übereinstimmt. Dies sind alltägliche Szenarien mit hoher Auswirkung, bei denen Fehler direkt die Lebensgrundlagen, öffentlichen Dienste und Gesundheitsergebnisse beeinflussen können. Die Feinabstimmung offener Modelle bietet eine entscheidende sofortige Lösung, während gleichzeitig die wesentlichen Datensätze, das Domänenwissen und die Infrastruktur für einen wirklich souveränen KI-Stack aufgebaut werden.

Diese zweigleisige Strategie wird als einer der schnellsten Wege nach vorn angesehen, indem offene Tools genutzt werden, um organisch souveräne Kapazitäten aufzubauen. Abhishek Upperwal von Soket AI betrachtet diese als parallele, aber getrennte Stränge: der eine konzentriert sich auf den unmittelbaren Nutzen, der andere auf die langfristige Unabhängigkeit, mit einer letztendlichen Konvergenz in Sicht.

Die IndiaAI Mission ist eine nationale Antwort auf eine wachsende geopolitische Besorgnis. Da KI-Systeme für Bildung, Landwirtschaft, Verteidigung und Regierungsführung unverzichtbar werden, erhöht die übermäßige Abhängigkeit von ausländischen Plattformen die Risiken der Datenexposition und des Kontrollverlusts. Der Vorfall mit Nayara Energy, bei dem Microsoft aufgrund von Sanktionen die Dienste einstellte, diente als deutliche Warnung und zeigte, wie ausländische Technologieanbieter zu geopolitischen Hebelpunkten werden können. Ähnlich unterstreichen Verschiebungen in der Handelspolitik, wie frühere Zollerhöhungen, die Verflechtung von Handel und Technologie.

Neben der Reduzierung der Abhängigkeit sind souveräne KI-Systeme für Indiens kritische Sektoren von entscheidender Bedeutung, um lokale Werte, regulatorische Rahmenbedingungen und sprachliche Vielfalt genau widerzuspiegeln. Die meisten globalen KI-Modelle, die überwiegend auf englischen und westlichen Datensätzen trainiert wurden, sind schlecht gerüstet, um Indiens mehrsprachige Bevölkerung oder die Komplexität seiner lokalisierten Systeme zu handhaben, wie beispielsweise die Interpretation indischer Gerichtsurteile oder die Berücksichtigung spezifischer Erntezyklen und Anbaupraktiken. Mohanty betont, dass es bei der KI-Souveränität nicht um Isolation geht, sondern um die Kontrolle über Infrastruktur und Zugangsbedingungen. Er stellt fest, dass eine vollständige „Full-Stack“-Unabhängigkeit, von Chips bis zu Modellen, für keine Nation, einschließlich Indien, undurchführbar ist, wobei selbst globale Mächte die heimische Entwicklung mit strategischen Partnerschaften ausbalancieren. Indiens Regierung behält daher eine pragmatische, agnostische Haltung zu grundlegenden KI-Elementen bei, getrieben von Einschränkungen wie dem Mangel an indischen Daten, Rechenkapazität und leicht verfügbaren Open-Source-Alternativen, die auf Indien zugeschnitten sind.

Trotz des Impulses bleibt ein grundlegendes Hindernis die Knappheit an hochwertigen Trainingsdaten, insbesondere in indischen Sprachen. Obwohl Indien eine immense sprachliche Vielfalt aufweist, hat sich dies nicht in ausreichende digitale Daten für KI-Systeme zum Lernen übersetzt. Manish Gupta, Engineering Director bei Google DeepMind India, zitierte interne Bewertungen, die zeigten, dass 72 indische Sprachen mit über 100.000 Sprechern praktisch keine digitale Präsenz hatten. Um dies anzugehen, startete Google in Zusammenarbeit mit dem Indian Institute of Science (IISc) das Projekt Vaani, das darauf abzielt, Sprachproben in Hunderten von indischen Distrikten zu sammeln. Die erste Phase sammelte über 14.000 Stunden Sprachdaten aus 80 Distrikten, die 59 Sprachen abdecken, von denen 15 zuvor keine digitalen Datensätze hatten. Nachfolgende Phasen erweitern diese Abdeckung in ganz Indien. Gupta hob auch die Herausforderungen der Datenbereinigung und -qualität hervor und Googles Bemühungen, diese lokalen Sprachfähigkeiten in seine großen Modelle zu integrieren, indem sie interlinguale Übertragung von weit verbreiteten Sprachen wie Englisch und Hindi nutzen, um die Leistung in Sprachen mit geringeren Ressourcen zu verbessern. Googles Gemma LLM integriert diese indischen Sprachfähigkeiten, und seine Kooperationen mit Startups der IndiaAI Mission umfassen technische Anleitung und die öffentliche Bereitstellung gesammelter Datensätze, getrieben von sowohl kommerziellen als auch Forschungsanforderungen. Indien wird als globales Testfeld für mehrsprachige und ressourcenarme KI-Entwicklung angesehen, wobei Lösungen potenziell auf andere sprachlich komplexe Regionen skaliert werden können.

Für Indiens souveräne KI-Entwickler bedeutet das Fehlen von leicht verfügbaren, hochwertigen indischen Datensätzen, dass Modellentwicklung und Datensatzerstellung parallel verlaufen müssen. Indiens geschichtete Strategie – jetzt offene Modelle zu verwenden, während gleichzeitig souveräne Modelle aufgebaut werden – bietet anderen Ländern, die mit ähnlichen Einschränkungen zu kämpfen haben, insbesondere im Globalen Süden, einen wertvollen Fahrplan. Sie bietet eine Blaupause für Nationen, die KI-Systeme entwickeln möchten, die lokale Sprachen, Kontexte und Werte widerspiegeln, ohne den Luxus großer Rechenbudgets oder reifer Datenökosysteme. Für diese Länder bieten feinabgestimmte offene Modelle eine Brücke zu Kapazität, Inklusion und Kontrolle.

Wie Abhishek Upperwal von Soket AI es ausdrückt: „Full-Stack-Souveränität in der KI ist ein Marathon, kein Sprint. Man baut kein 120-Milliarden-Modell im luftleeren Raum. Man erreicht es, indem man schnell implementiert, schnell lernt und wechselt, wenn man bereit ist.“ Länder wie Singapur, Vietnam und Thailand erforschen bereits ähnliche Methoden und nutzen Gemma, um ihre lokalen LLM-Bemühungen anzukurbeln. Bis 2026, wenn Indiens souveräne LLMs, einschließlich EKA, voraussichtlich produktionsreif sein werden, wird diese zweigleisige Strategie voraussichtlich konvergieren, wobei selbst entwickelte Systeme schrittweise die hochgefahrenen Modelle ersetzen werden.

Eine anhaltende Frage der Abhängigkeit bleibt jedoch bestehen. Selbst bei Open-Source-Modellen von globalen Technologiegiganten wie Metas Llama oder Googles Gemma liegt die Kontrolle über Architektur, Trainingstechniken und Infrastrukturunterstützung immer noch stark bei diesen Hauptakteuren. Während Google Sprachdatensätze Open Source gemacht und sich mit indischen Startups zusammengetan hat, sind die Bedingungen einer solchen Offenheit nicht immer symmetrisch. Indiens souveräne Bestrebungen hängen letztendlich davon ab, diese offenen Modelle zu übertreffen. Wie Mohanty warnt, könnte der Einfluss auf indische Initiativen erheblich sein, wenn eine ausländische Regierung einen Tech-Giganten anweisen würde, den Zugang oder die Preise zu ändern, was die digitale Souveränität gefährden würde. Die kommenden Jahre werden zeigen, ob Indien und andere Nationen des Globalen Südens diese geliehene Unterstützung in eine vollständige, souveräne KI-Infrastruktur umwandeln können, bevor sich die Zugangsbedingungen ändern oder das Zeitfenster zum Handeln schließt.