La doble vía de India en IA: Afinar código abierto y desarrollar lo propio
India está trazando un rumbo distintivo para establecerse como una potencia en inteligencia artificial, empleando una estrategia pragmática de doble vía que podría servir como modelo para otras naciones del Sur Global. Este enfoque equilibra la utilidad inmediata con la soberanía tecnológica a largo plazo, una necesidad subrayada por eventos geopolíticos recientes, como la abrupta retirada de servicios de Microsoft al refinador indio Nayara Energy, respaldado por Rusia, el mes pasado, lo que expuso las vulnerabilidades de depender de infraestructuras digitales extranjeras.
El núcleo de la ambición de IA de India se mostró prominentemente en el evento I/O Connect de Google en Bengaluru este julio, donde el énfasis se centró firmemente en el desarrollo de capacidades de IA adaptadas a la profunda diversidad lingüística de India. Con 22 idiomas oficiales y cientos de dialectos hablados, crear sistemas de IA que puedan navegar eficazmente este panorama multilingüe presenta un desafío formidable. Startups como Sarvam AI mostraron Sarvam-Translate, un modelo multilingüe afinado en el gran modelo de lenguaje (LLM) de código abierto de Google, Gemma, para abordar esto. De manera similar, CoRover demostró BharatGPT, un chatbot diseñado para servicios públicos, incluida la Corporación India de Catering y Turismo Ferroviario (IRCTC). Google también anunció colaboraciones con Sarvam, Soket AI y Gnani, todos los cuales están aprovechando Gemma para construir modelos de IA indios de próxima generación.
Esta dependencia de un modelo desarrollado en el extranjero como Gemma podría parecer paradójica, especialmente porque tres de estas startups también están designadas para construir los grandes modelos de lenguaje fundacionales de India desde cero bajo la Misión IndiaAI de ₹10,300 crore. Esta iniciativa gubernamental tiene como objetivo fomentar modelos de cosecha propia entrenados con datos, idiomas y valores indios. Sin embargo, la decisión de utilizar modelos de código abierto existentes se basa en el pragmatismo. Desarrollar modelos competitivos desde cero requiere muchos recursos y tiempo. Dada la evolución de la infraestructura informática de India, los conjuntos de datos de entrenamiento de alta calidad limitados y las apremiantes demandas del mercado, un enfoque por capas resulta más viable. Las startups están afinando modelos de código abierto para resolver problemas inmediatos del mundo real, mientras que simultáneamente construyen las tuberías de datos, los bucles de retroalimentación de los usuarios y la experiencia específica del dominio necesaria para cultivar modelos verdaderamente indígenas e independientes con el tiempo. La afinación implica adaptar un LLM general preentrenado para especializarse en conjuntos de datos específicos, a menudo locales, mejorando así su rendimiento en contextos particulares.
Esta doble estrategia se ejemplifica con iniciativas como el Proyecto EKA, un esfuerzo impulsado por la comunidad de código abierto liderado por Soket AI en colaboración con IIT Gandhinagar, IIT Roorkee e IISc Bangalore. EKA se está construyendo desde cero, con su código, infraestructura y tuberías de datos completamente de origen indio. Se anticipa un modelo de 7 mil millones de parámetros en cuatro a cinco meses, seguido de un modelo de 120 mil millones de parámetros en diez meses. Abhishek Upperwal, cofundador de Soket AI, señaló que el proyecto se centra en cuatro dominios críticos: agricultura, derecho, educación y defensa, cada uno con una estrategia de conjunto de datos definida a partir de asesoramientos gubernamentales y casos de uso del sector público. Una característica clave de EKA es su completa independencia de la infraestructura extranjera, con el entrenamiento realizado en la nube de GPU de India y los modelos resultantes siendo de código abierto. Sin embargo, en un movimiento pragmático, Soket ha utilizado Gemma para las implementaciones iniciales, y Upperwal aclaró que el objetivo es arrancar y hacer la transición a pilas soberanas cuando estén listas.
BharatGPT de CoRover refleja este doble enfoque. Actualmente opera con un modelo afinado, proporcionando servicios de IA conversacional en múltiples idiomas indios a clientes gubernamentales como IRCTC y Life Insurance Corporation. El fundador Ankush Sabharwal enfatizó la necesidad de un modelo base rápidamente afinable para aplicaciones críticas en salud pública, ferrocarriles y espacio, al tiempo que confirmó el desarrollo de su propio LLM fundacional utilizando conjuntos de datos indios. Estas implementaciones sirven no solo como mecanismos de prestación de servicios, sino también como vías cruciales para la creación de datos, mejorando la accesibilidad hoy mientras construyen un puente hacia futuros sistemas soberanos. Sabharwal explicó que el proceso comienza con un modelo de código abierto, que luego se afina, se mejora para la comprensión del lenguaje y la relevancia del dominio, y finalmente se reemplaza por un modelo soberano propietario.
Amlan Mohanty, experto en políticas tecnológicas, describe la estrategia de India como un “experimento de compensaciones” —aprovechar modelos como Gemma para una implementación rápida sin abandonar el objetivo a largo plazo de la autonomía. Este enfoque tiene como objetivo reducir la dependencia de naciones potencialmente adversarias, asegurar la representación cultural y probar la fiabilidad de las asociaciones con aliados.
El impulso para la IA indígena en India se extiende más allá del orgullo nacional; se trata de abordar problemas únicos que los modelos extranjeros a menudo no logran comprender. Considere un migrante en la Maharashtra rural que busca asesoramiento médico. Una herramienta de IA extranjera, entrenada con datos occidentales, podría proporcionar explicaciones en inglés con acento de Cupertino, utilizando suposiciones médicas que no se alinean con los tipos de cuerpo indios o la terminología médica local. Tal desajuste resalta la necesidad crítica de una IA que entienda los idiomas locales, los matices culturales y los contextos fisiológicos, ya sea para un trabajador de la salud en Bihar que necesita una herramienta de IA que entienda términos médicos Maithili, o un agricultor en Maharashtra que requiera asesoramiento sobre cultivos alineado con los horarios de riego específicos del estado. Estos son escenarios cotidianos de alto impacto donde los errores pueden afectar directamente los medios de vida, los servicios públicos y los resultados de salud. La afinación de modelos abiertos proporciona una solución inmediata crucial, mientras que simultáneamente construye los conjuntos de datos esenciales, el conocimiento del dominio y la infraestructura para una pila de IA verdaderamente soberana.
Esta estrategia de doble vía se considera uno de los caminos más rápidos hacia adelante, utilizando herramientas abiertas para construir orgánicamente la capacidad soberana. Abhishek Upperwal de Soket AI ve estos como hilos paralelos pero separados: uno centrado en la utilidad inmediata, el otro en la independencia a largo plazo, con una convergencia final a la vista.
La Misión IndiaAI es una respuesta nacional a una creciente preocupación geopolítica. A medida que los sistemas de IA se vuelven indispensables para la educación, la agricultura, la defensa y la gobernanza, la excesiva dependencia de plataformas extranjeras aumenta los riesgos de exposición de datos y pérdida de control. El incidente de Nayara Energy, donde Microsoft cortó los servicios debido a las sanciones, sirvió como una dura advertencia, ilustrando cómo los proveedores de tecnología extranjeros pueden convertirse en puntos de apalancamiento geopolítico. De manera similar, los cambios en las políticas comerciales, como los aumentos arancelarios pasados, subrayan la naturaleza entrelazada del comercio y la tecnología.
Más allá de reducir la dependencia, los sistemas de IA soberanos son vitales para que los sectores críticos de India reflejen con precisión los valores locales, los marcos regulatorios y la diversidad lingüística. La mayoría de los modelos de IA globales, predominantemente entrenados en inglés y conjuntos de datos occidentales, están mal equipados para manejar la población multilingüe de India o las complejidades de sus sistemas localizados, como interpretar sentencias legales indias o tener en cuenta ciclos de cultivo y prácticas agrícolas específicos. Mohanty enfatiza que la soberanía de la IA no se trata de aislamiento, sino de control sobre la infraestructura y los términos de acceso. Señala que la independencia completa “full-stack”, desde los chips hasta los modelos, es inviable para cualquier nación, incluida India, e incluso las potencias globales equilibran el desarrollo doméstico con asociaciones estratégicas. El gobierno de India, por lo tanto, mantiene una postura pragmática y agnóstica sobre los elementos fundamentales de la IA, impulsado por limitaciones como la falta de datos índicos, capacidad de cómputo y alternativas de código abierto fácilmente disponibles adaptadas para India.
A pesar del impulso, un obstáculo fundamental sigue siendo la escasez de datos de entrenamiento de alta calidad, particularmente en idiomas indios. Si bien India cuenta con una inmensa diversidad lingüística, esto no se ha traducido en suficientes datos digitales para que los sistemas de IA aprendan. Manish Gupta, director de ingeniería de Google DeepMind India, citó evaluaciones internas que revelan que 72 idiomas indios con más de 100,000 hablantes prácticamente no tenían presencia digital. Para abordar esto, Google lanzó el Proyecto Vaani en colaboración con el Instituto Indio de Ciencia (IISc), con el objetivo de recopilar muestras de voz en cientos de distritos indios. La primera fase recopiló más de 14,000 horas de datos de voz de 80 distritos, cubriendo 59 idiomas, 15 de los cuales carecían previamente de conjuntos de datos digitales. Las fases posteriores están expandiendo esta cobertura en toda India. Gupta también destacó los desafíos de la limpieza y calidad de los datos, y los esfuerzos de Google para integrar estas capacidades de idiomas locales en sus modelos grandes, aprovechando la transferencia interlingüística de idiomas ampliamente hablados como el inglés y el hindi para mejorar el rendimiento en idiomas con menos recursos. El LLM Gemma de Google incorpora estas capacidades de idiomas indios, y sus colaboraciones con las startups de la Misión IndiaAI incluyen orientación técnica y la puesta a disposición pública de los conjuntos de datos recopilados, impulsado por imperativos tanto comerciales como de investigación. India es vista como un banco de pruebas global para el desarrollo de IA multilingüe y de bajos recursos, con soluciones que potencialmente pueden escalar a otras regiones lingüísticamente complejas.
Para los constructores de IA soberana de India, la ausencia de conjuntos de datos índicos de alta calidad y fácilmente disponibles significa que el desarrollo de modelos y la creación de conjuntos de datos deben proceder en paralelo. La estrategia por capas de India —usar modelos abiertos ahora mientras se construyen modelos soberanos simultáneamente— ofrece una hoja de ruta valiosa para otros países que lidian con limitaciones similares, particularmente en el Sur Global. Proporciona un modelo para las naciones que buscan desarrollar sistemas de IA que reflejen los idiomas, contextos y valores locales sin el lujo de grandes presupuestos informáticos o ecosistemas de datos maduros. Para estos países, los modelos abiertos afinados ofrecen un puente hacia la capacidad, la inclusión y el control.
Como dice Upperwal de Soket AI, “La soberanía de pila completa en IA es una maratón, no un sprint. No se construye un modelo de 120 mil millones en el vacío. Se llega a él implementando rápido, aprendiendo rápido y cambiando cuando se esté listo.” Países como Singapur, Vietnam y Tailandia ya están explorando métodos similares, utilizando Gemma para impulsar sus esfuerzos locales de LLM. Para 2026, cuando se espera que los LLM soberanos de India, incluido EKA, estén listos para la producción, se proyecta que esta doble vía convergerá, con sistemas de cosecha propia reemplazando gradualmente a los modelos arrancados.
Sin embargo, persiste una pregunta persistente sobre la dependencia. Incluso con modelos de código abierto de gigantes tecnológicos globales como Llama de Meta o Gemma de Google, el control sobre la arquitectura, las técnicas de entrenamiento y el soporte de infraestructura todavía recae en gran medida en estos actores principales. Si bien Google ha abierto conjuntos de datos de voz y se ha asociado con startups indias, los términos de dicha apertura no siempre son simétricos. Las aspiraciones soberanas de India, en última instancia, dependen de superar estos modelos abiertos. Como advierte Mohanty, si un gobierno extranjero dirigiera a un gigante tecnológico a alterar el acceso o los precios, el impacto en las iniciativas indias podría ser significativo, poniendo en peligro la soberanía digital. Los próximos años pondrán a prueba si India y otras naciones del Sur Global pueden transformar este apoyo prestado en una infraestructura de IA completa y soberana antes de que cambien los términos de acceso o se cierre la ventana para actuar.