Inde : La double voie de l'IA entre open source et développement souverain

Livemint

L’Inde trace une voie distinctive pour s’établir comme une puissance en intelligence artificielle, en employant une stratégie pragmatique à deux volets qui pourrait servir de modèle pour d’autres nations du Sud Global. Cette approche équilibre l’utilité immédiate et la souveraineté technologique à long terme, une nécessité soulignée par les récents événements géopolitiques, tels que le retrait abrupt des services de Microsoft à la raffinerie indienne Nayara Energy, soutenue par la Russie, le mois dernier, qui a exposé les vulnérabilités de la dépendance à l’infrastructure numérique étrangère.

Le cœur de l’ambition indienne en matière d’IA a été mis en évidence lors de l’événement I/O Connect de Google à Bengaluru en juillet, où l’accent a été fermement mis sur le développement de capacités d’IA adaptées à la profonde diversité linguistique de l’Inde. Avec 22 langues officielles et des centaines de dialectes parlés, la création de systèmes d’IA capables de naviguer efficacement dans ce paysage multilingue présente un défi formidable. Des startups comme Sarvam AI ont présenté Sarvam-Translate, un modèle multilingue affiné sur le grand modèle linguistique (LLM) open source de Google, Gemma, pour y remédier. De même, CoRover a démontré BharatGPT, un chatbot conçu pour les services publics, y compris l’Indian Railway Catering and Tourism Corporation (IRCTC). Google a également annoncé des collaborations avec Sarvam, Soket AI et Gnani, qui tirent tous parti de Gemma pour construire les modèles d’IA indiens de nouvelle génération.

Cette dépendance à l’égard d’un modèle développé à l’étranger comme Gemma pourrait sembler paradoxale, d’autant plus que trois de ces startups sont également désignées pour construire les modèles linguistiques fondamentaux de l’Inde à partir de zéro dans le cadre de la Mission IndiaAI de 10 300 crores de roupies. Cette initiative gouvernementale vise à favoriser les modèles développés localement, formés sur les données, les langues et les valeurs indiennes. Cependant, la décision d’utiliser des modèles open source existants est ancrée dans le pragmatisme. Développer des modèles compétitifs à partir de zéro est gourmand en ressources et en temps. Compte tenu de l’évolution de l’infrastructure informatique de l’Inde, des ensembles de données d’entraînement de haute qualité limités et des demandes pressantes du marché, une approche stratifiée s’avère plus viable. Les startups affinent les modèles open source pour résoudre des problèmes immédiats et réels, tout en construisant simultanément les pipelines de données, les boucles de rétroaction des utilisateurs et l’expertise spécifique au domaine nécessaires pour cultiver des modèles véritablement indigènes et indépendants au fil du temps. L’affinage implique l’adaptation d’un LLM général pré-entraîné pour se spécialiser dans des ensembles de données spécifiques, souvent locaux, améliorant ainsi ses performances dans des contextes particuliers.

Cette double stratégie est illustrée par des initiatives telles que le Projet EKA, un effort communautaire open source mené par Soket AI en collaboration avec l’IIT Gandhinagar, l’IIT Roorkee et l’IISc Bangalore. EKA est construit à partir de zéro, avec son code, son infrastructure et ses pipelines de données entièrement sourcés en Inde. Un modèle de 7 milliards de paramètres est prévu dans quatre à cinq mois, suivi d’un modèle de 120 milliards de paramètres dans dix mois. Abhishek Upperwal, cofondateur de Soket AI, a noté que le projet se concentre sur quatre domaines critiques : l’agriculture, le droit, l’éducation et la défense, chacun avec une stratégie de jeu de données définie à partir des avis gouvernementaux et des cas d’utilisation du secteur public. Une caractéristique clé d’EKA est son indépendance totale vis-à-vis de l’infrastructure étrangère, l’entraînement étant effectué sur le cloud GPU de l’Inde et les modèles résultants étant open source. Pourtant, dans une démarche pragmatique, Soket a utilisé Gemma pour les déploiements initiaux, Upperwal précisant que l’objectif est de démarrer et de passer à des piles souveraines lorsque cela sera prêt.

BharatGPT de CoRover reflète cette double approche. Il fonctionne actuellement sur un modèle affiné, fournissant des services d’IA conversationnelle dans plusieurs langues indiennes à des clients gouvernementaux comme l’IRCTC et la Life Insurance Corporation. Le fondateur Ankush Sabharwal a souligné la nécessité d’un modèle de base rapidement affinable pour les applications critiques dans la santé publique, les chemins de fer et l’espace, tout en confirmant le développement de leur propre LLM fondamental utilisant des ensembles de données indiens. Ces déploiements servent non seulement de mécanismes de prestation de services, mais aussi de voies cruciales de création de données, améliorant l’accessibilité aujourd’hui tout en construisant un pont vers de futurs systèmes souverains. Sabharwal a expliqué que le processus commence par un modèle open source, qui est ensuite affiné, amélioré pour la compréhension linguistique et la pertinence du domaine, et finalement remplacé par un modèle souverain propriétaire.

Amlan Mohanty, expert en politique technologique, décrit la stratégie de l’Inde comme une “expérience de compromis” – tirer parti de modèles comme Gemma pour un déploiement rapide sans abandonner l’objectif à long terme d’autonomie. Cette approche vise à réduire la dépendance vis-à-vis de nations potentiellement adverses, à assurer la représentation culturelle et à tester la fiabilité des partenariats avec des alliés.

La volonté d’une IA indigène en Inde va au-delà de la fierté nationale ; il s’agit de résoudre des problèmes uniques que les modèles étrangers ne parviennent souvent pas à comprendre. Considérez un migrant dans le Maharashtra rural cherchant un avis médical. Un outil d’IA étranger, entraîné sur des données occidentales, pourrait fournir des explications en anglais avec un accent de Cupertino, en utilisant des hypothèses médicales qui ne correspondent pas aux types de corps indiens ou à la terminologie médicale locale. Un tel décalage souligne le besoin critique d’une IA qui comprend les langues locales, les nuances culturelles et les contextes physiologiques – que ce soit pour un travailleur de la santé au Bihar ayant besoin d’un outil d’IA qui comprend les termes médicaux maithili, ou un agriculteur au Maharashtra nécessitant des conseils sur les cultures alignés sur les calendriers d’irrigation spécifiques à l’État. Ce sont des scénarios quotidiens à fort impact où les erreurs peuvent directement affecter les moyens de subsistance, les services publics et les résultats de santé. L’affinage des modèles ouverts fournit une solution immédiate cruciale tout en construisant simultanément les ensembles de données essentiels, les connaissances du domaine et l’infrastructure pour une pile d’IA véritablement souveraine.

Cette stratégie à double voie est considérée comme l’une des voies les plus rapides, utilisant des outils ouverts pour construire organiquement une capacité souveraine. Abhishek Upperwal de Soket AI les considère comme des fils parallèles mais distincts : l’un axé sur l’utilité immédiate, l’autre sur l’indépendance à long terme, avec une convergence ultime en vue.

La Mission IndiaAI est une réponse nationale à une préoccupation géopolitique croissante. À mesure que les systèmes d’IA deviennent indispensables pour l’éducation, l’agriculture, la défense et la gouvernance, la dépendance excessive à l’égard de plateformes étrangères augmente les risques d’exposition des données et de perte de contrôle. L’incident de Nayara Energy, où Microsoft a coupé les services en raison de sanctions, a servi d’avertissement sévère, illustrant comment les fournisseurs de technologie étrangers peuvent devenir des points de levier géopolitiques. De même, les changements dans les politiques commerciales, comme les augmentations tarifaires passées, soulignent la nature entrelacée du commerce et de la technologie.

Au-delà de la réduction de la dépendance, les systèmes d’IA souverains sont vitaux pour les secteurs critiques de l’Inde afin de refléter avec précision les valeurs locales, les cadres réglementaires et la diversité linguistique. La plupart des modèles d’IA mondiaux, principalement formés sur des données anglaises et occidentales, sont mal équipés pour gérer la population multilingue de l’Inde ou les complexités de ses systèmes localisés, comme l’interprétation des jugements juridiques indiens ou la prise en compte des cycles de culture et des pratiques agricoles spécifiques. Mohanty souligne que la souveraineté de l’IA n’est pas une question d’isolement mais de contrôle sur l’infrastructure et les conditions d’accès. Il note qu’une indépendance complète “full-stack”, des puces aux modèles, est irréalisable pour toute nation, y compris l’Inde, même les puissances mondiales équilibrant le développement national avec les partenariats stratégiques. Le gouvernement indien maintient donc une position pragmatique et agnostique sur les éléments fondamentaux de l’IA, poussé par des contraintes telles que le manque de données indiennes, la capacité de calcul et les alternatives open source facilement disponibles adaptées à l’Inde.

Malgré l’élan, un obstacle fondamental demeure la rareté des données d’entraînement de haute qualité, en particulier dans les langues indiennes. Bien que l’Inde se vante d’une immense diversité linguistique, cela ne s’est pas traduit par suffisamment de données numériques pour que les systèmes d’IA puissent apprendre. Manish Gupta, directeur de l’ingénierie chez Google DeepMind India, a cité des évaluations internes révélant que 72 langues indiennes avec plus de 100 000 locuteurs n’avaient pratiquement aucune présence numérique. Pour y remédier, Google a lancé le Projet Vaani en collaboration avec l’Institut indien des sciences (IISc), visant à collecter des échantillons vocaux dans des centaines de districts indiens. La première phase a recueilli plus de 14 000 heures de données vocales provenant de 80 districts, couvrant 59 langues, dont 15 ne disposaient auparavant d’aucun ensemble de données numériques. Les phases ultérieures étendent cette couverture à travers l’Inde. Gupta a également souligné les défis du nettoyage et de la qualité des données, et les efforts de Google pour intégrer ces capacités linguistiques locales dans ses grands modèles, en tirant parti du transfert interlinguistique des langues largement parlées comme l’anglais et l’hindi pour améliorer les performances dans les langues moins dotées en ressources. Le LLM Gemma de Google intègre ces capacités linguistiques indiennes, et ses collaborations avec les startups de la Mission IndiaAI incluent des conseils techniques et la mise à disposition publique des ensembles de données collectés, motivés à la fois par des impératifs commerciaux et de recherche. L’Inde est considérée comme un banc d’essai mondial pour le développement de l’IA multilingue et à faibles ressources, avec des solutions potentiellement extensibles à d’autres régions linguistiquement complexes.

Pour les constructeurs d’IA souveraine de l’Inde, l’absence d’ensembles de données indiens de haute qualité et facilement disponibles signifie que le développement de modèles et la création d’ensembles de données doivent se dérouler en parallèle. La stratégie stratifiée de l’Inde – utiliser des modèles ouverts maintenant tout en construisant simultanément des modèles souverains – offre une feuille de route précieuse pour d’autres pays aux prises avec des contraintes similaires, en particulier dans le Sud Global. Elle fournit un modèle pour les nations cherchant à développer des systèmes d’IA qui reflètent les langues, les contextes et les valeurs locales sans le luxe de vastes budgets de calcul ou d’écosystèmes de données matures. Pour ces pays, les modèles ouverts affinés offrent un pont vers la capacité, l’inclusion et le contrôle.

Comme le dit Upperwal de Soket AI, “La souveraineté complète de l’IA est un marathon, pas un sprint. On ne construit pas un modèle de 120 milliards dans le vide. On y parvient en déployant rapidement, en apprenant rapidement et en changeant quand on est prêt.” Des pays comme Singapour, le Vietnam et la Thaïlande explorent déjà des méthodes similaires, utilisant Gemma pour lancer leurs efforts locaux en matière de LLM. D’ici 2026, lorsque les LLM souverains de l’Inde, y compris EKA, devraient être prêts pour la production, cette double voie devrait converger, les systèmes développés localement remplaçant progressivement les modèles bootstrappés.

Cependant, une question persistante de dépendance demeure. Même avec des modèles open source de géants technologiques mondiaux comme Llama de Meta ou Gemma de Google, le contrôle de l’architecture, des techniques d’entraînement et du support d’infrastructure repose toujours fortement sur ces acteurs majeurs. Bien que Google ait mis en open source des ensembles de données vocales et se soit associé à des startups indiennes, les conditions d’une telle ouverture ne sont pas toujours symétriques. Les aspirations souveraines de l’Inde dépendent finalement de leur capacité à dépasser ces modèles ouverts. Comme le met en garde Mohanty, si un gouvernement étranger ordonnait à un géant de la technologie de modifier l’accès ou les prix, l’impact sur les initiatives indiennes pourrait être significatif, mettant en péril la souveraineté numérique. Les années à venir testeront si l’Inde et d’autres nations du Sud Global peuvent transformer ce soutien emprunté en une infrastructure d’IA complète et souveraine avant que les conditions d’accès ne changent ou que la fenêtre d’action ne se ferme.