印度AI双轨战略:开源微调与本土自主研发并进

Livemint

印度正在开辟一条独特的道路,以确立其作为人工智能强国的地位,采用一种务实的双管齐下策略,这可能成为全球南方其他国家的蓝图。这种方法平衡了即时效用与长期技术主权,而近期地缘政治事件,如微软上月突然撤销对俄罗斯支持的印度炼油商纳亚拉能源(Nayara Energy)的服务,暴露了依赖外国数字基础设施的脆弱性,更是凸显了这种平衡的必要性。

印度人工智能雄心的核心在今年7月谷歌班加罗尔的I/O Connect活动中得到了突出展示,重点坚定地放在开发适应印度深厚语言多样性的AI能力上。印度拥有22种官方语言和数百种口语方言,创建能够有效驾驭这种多语言环境的AI系统,构成了一项艰巨的挑战。Sarvam AI等初创公司展示了Sarvam-Translate,这是一个在谷歌开源大型语言模型(LLM)Gemma上进行微调的多语言模型,旨在解决这一问题。同样,CoRover展示了BharatGPT,一个专为公共服务设计的聊天机器人,包括印度铁路餐饮和旅游公司(IRCTC)。谷歌还宣布与Sarvam、Soket AI和Gnani合作,所有这些公司都在利用Gemma构建下一代印度AI模型。

对Gemma这种外国开发模型的依赖可能看似矛盾,特别是考虑到其中三家初创公司也被指定在印度AI使命(IndiaAI Mission)下,从零开始构建印度自己的基础大型语言模型,该计划耗资1030亿卢比。这项政府倡议旨在培育基于印度数据、语言和价值观训练的本土模型。然而,使用现有开源模型的决定是基于实用主义的。从头开始开发具有竞争力的模型需要大量资源和时间。鉴于印度不断发展的计算基础设施、有限的高质量训练数据集以及紧迫的市场需求,分层方法被证明更为可行。初创公司正在微调开源模型,以解决即时、现实世界的问题,同时也在同步构建数据管道、用户反馈循环以及培养特定领域专业知识,以便随着时间的推移培育出真正本土化和独立的模型。微调涉及调整预训练的通用LLM,使其专注于特定的、通常是本地的数据集,从而提高其在特定上下文中的性能。

Project EKA等倡议体现了这种双重战略,这是一个由Soket AI与IIT甘地讷格尔、IIT罗克和IISc班加罗尔合作领导的开源社区驱动项目。EKA正在从零开始构建,其代码、基础设施和数据管道完全来源于印度。预计在四到五个月内将推出一个70亿参数的模型,随后在十个月内推出一个1200亿参数的模型。Soket AI联合创始人Abhishek Upperwal指出,该项目专注于农业、法律、教育和国防四个关键领域,每个领域都有明确的数据集策略,借鉴政府建议和公共部门用例。EKA的一个关键特点是其完全独立于外国基础设施,训练在印度的GPU云上进行,生成的模型也将开源。然而,在务实之举中,Soket已将Gemma用于初步部署,Upperwal澄清说,目标是在准备就绪时引导并过渡到主权堆栈。

CoRover的BharatGPT也反映了这种双重方法。它目前在一个微调模型上运行,为IRCTC和印度人寿保险公司等政府客户提供多种印度语言的对话式AI服务。创始人Ankush Sabharwal强调,公共卫生、铁路和太空等关键应用需要一个可快速微调的基础模型,同时他也证实正在使用印度数据集开发自己的基础LLM。这些部署不仅作为服务交付机制,也是重要的数据创建途径,在今天提高可访问性的同时,为未来的主权系统搭建桥梁。Sabharwal解释说,这个过程始于一个开源模型,然后进行微调,增强语言理解和领域相关性,最终被专有的主权模型取代。

技术政策专家Amlan Mohanty将印度的战略描述为“权衡的实验”——利用Gemma等模型快速部署,同时不放弃长期自主的目标。这种方法旨在减少对潜在敌对国家的依赖,确保文化代表性,并测试与盟友伙伴关系的可靠性。

印度发展本土AI的动力超越了民族自豪感;它旨在解决外国模型常常无法理解的独特问题。试想一下,一位马哈拉施特拉邦农村地区的移民寻求医疗建议。一个在西方数据上训练的外国AI工具,可能会用带有库比蒂诺口音的英语提供解释,并使用与印度人身体类型或当地医学术语不符的医疗假设。这种不匹配突显了对理解当地语言、文化细微差别和生理背景的AI的迫切需求——无论是比哈尔邦的卫生工作者需要一个能理解迈蒂利语医学术语的AI工具,还是马哈拉施特拉邦的农民需要符合邦特定灌溉时间表的作物建议。这些都是高影响、日常的场景,错误可能直接影响生计、公共服务和健康结果。微调开源模型提供了重要的即时解决方案,同时也在为真正的自主AI堆栈构建必要的数据集、领域知识和基础设施。

这种双轨战略被视为最快的推进路径之一,利用开放工具有机地构建自主能力。Soket AI的Abhishek Upperwal认为这些是并行但独立的线程:一个专注于即时效用,另一个专注于长期独立,最终目标是融合。

印度AI使命是对日益增长的地缘政治担忧的国家回应。随着AI系统在教育、农业、国防和治理方面变得不可或缺,过度依赖外国平台增加了数据暴露和失控的风险。纳亚拉能源事件中,微软因制裁切断服务,这是一个严峻的警告,说明外国技术提供商如何成为地缘政治的筹码。同样,贸易政策的变化,如过去的关税上涨,也凸显了贸易与技术相互交织的本质。

除了减少依赖,主权AI系统对于印度的关键部门至关重要,以准确反映当地价值观、监管框架和语言多样性。大多数全球AI模型主要在英语和西方数据集上训练,因此无法有效处理印度的多语言人口或其本地化系统的复杂性,例如解释印度法律判决或考虑特定的作物周期和耕作实践。Mohanty强调,AI主权并非孤立,而是对基础设施和访问条款的控制。他指出,从芯片到模型的完全“全栈”独立对任何国家,包括印度,都是不现实的,甚至全球大国也在平衡国内发展与战略伙伴关系。因此,印度政府对基础AI要素保持务实、不可知论的立场,这受到印度语数据、计算能力和缺乏适合印度的现成开源替代方案等限制的驱动。

尽管势头强劲,但一个根本性的障碍仍然是高质量训练数据的稀缺性,特别是在印度语言方面。虽然印度拥有巨大的语言多样性,但这并未转化为足够的数字数据供AI系统学习。谷歌DeepMind印度工程总监Manish Gupta引用内部评估称,有72种印度语言拥有超过10万使用者,但几乎没有数字存在。为了解决这个问题,谷歌与印度科学研究所(IISc)合作启动了“瓦尼计划”(Project Vaani),旨在收集印度数百个地区的语音样本。第一阶段收集了来自80个地区的14000多小时语音数据,覆盖59种语言,其中15种此前缺乏数字数据集。后续阶段正在扩大在印度的覆盖范围。Gupta还强调了数据清洗和质量的挑战,以及谷歌将这些本地语言能力整合到其大型模型中的努力,利用英语和印地语等广泛使用的语言进行跨语言迁移,以提高资源较少语言的性能。谷歌的Gemma LLM整合了这些印度语言能力,其与印度AI使命初创公司的合作包括技术指导和公开收集的数据集,这既受商业也受研究需求的驱动。印度被视为多语言和低资源AI开发的全球试验场,其解决方案可能推广到其他语言复杂的地区。

对于印度的自主AI建设者来说,缺乏现成的高质量印度语数据集意味着模型开发和数据集创建必须并行进行。印度的分层战略——现在使用开源模型,同时并行构建自主模型——为其他面临类似限制的国家,特别是在全球南方国家,提供了宝贵的路线图。它为那些寻求开发反映当地语言、语境和价值观的AI系统,却又没有大量计算预算或成熟数据生态系统的国家提供了一个蓝图。对于这些国家来说,经过微调的开源模型提供了一座通往能力、包容性和控制的桥梁。

正如Soket AI的Upperwal所说:“AI领域的全栈主权是一场马拉松,而不是短跑。你不可能在真空中构建一个1200亿参数的模型。你通过快速部署、快速学习并在准备就绪时进行转换来实现。”新加坡、越南和泰国等国家已经开始探索类似的方法,利用Gemma来启动其本地LLM的开发。到2026年,当印度的自主LLM(包括EKA)预计投入生产时,这种双轨制预计将趋于融合,本土系统将逐步取代引导模型。

然而,依赖性问题依然存在。即使是来自Meta的Llama或谷歌的Gemma等全球科技巨头的开源模型,其架构、训练技术和基础设施支持的控制权仍然主要掌握在这些主要参与者手中。虽然谷歌已经开源了语音数据集并与印度初创公司合作,但这种开放的条款并非总是对称的。印度的主权抱负最终取决于超越这些开源模型。正如Mohanty警告的那样,如果外国政府指示某科技巨头改变访问权限或定价,对印度的倡议可能产生重大影响,危及数字主权。未来几年将考验印度和全球南方其他国家能否在访问条款改变或行动窗口关闭之前,将这种借来的支持转化为完整的、主权的人工智能基础设施。