印度AI战略:融合全球模型,驱动本土创新
微软最近撤回对俄罗斯支持的印度炼油企业纳亚拉能源(Nayara Energy)的云服务,凸显了一个关键的脆弱性:过度依赖外国技术基础设施所带来的风险。这一事件加剧了印度发展自身基础人工智能能力的战略动力,这项努力可能成为“全球南方”其他国家的蓝图。
印度在人工智能发展中面临独特的挑战,源于其深刻的语言多样性,包括22种官方语言和数百种口语方言。构建能够驾驭这种多语言环境的人工智能系统是一项艰巨的任务。然而,一种务实的双重策略正在浮现:印度初创公司在为即时应用微调全球开源模型的同时,也在从零开始 painstaking地构建本土基础模型。
在班加罗尔举行的谷歌I/O Connect活动中,这种分层方法得到了体现。Sarvam AI等初创公司展示了Sarvam-Translate,这是一款利用谷歌开源大型语言模型(LLM)Gemma进行优化的多语言模型。同样,CoRover展示了BharatGPT,一个提供公共服务(包括为印度铁路餐饮和旅游公司(IRCTC)服务)的聊天机器人,它也是基于微调模型构建的。考虑到Sarvam、Soket AI和Gnani也是在印度AI使命(IndiaAI Mission)下负责开发印度主权LLM的四家初创公司之一,这些由谷歌支持的努力似乎有些自相矛盾。
这种双重方法植根于必要性。从头开发具有竞争力的人工智能模型是资源密集型的,需要庞大的数据集、先进的计算基础设施和广泛的研究。印度,凭借其不断发展的技术生态系统和紧迫的市场需求,无法承受孤立建设的代价。相反,微调现有的大型语言模型——用重点本地数据对其进行专门化——提供了一条务实的路径,以解决当今的实际问题。这使得初创公司能够启动初始部署,收集用户反馈,并发展领域特定专业知识,同时并行构建真正独立模型所需的数据管道和基础设施。
由Soket AI与印度理工学院甘地讷格尔分校(IIT Gandhinagar)和班加罗尔印度科学研究所(IISc Bangalore)等领先印度机构合作领导的开源倡议Project EKA,体现了其主权雄心。EKA从零开始设计,采用完全印度本土的代码、基础设施和数据管道,旨在在数月内交付一个70亿参数的模型,并计划开发一个更大的1200亿参数模型。该倡议侧重于农业、法律、教育和国防等关键领域,确保在印度的GPU云上进行训练,并且生成的模型是开源的。然而,Soket AI联合创始人Abhishek Upperwal澄清说,使用Gemma进行初始部署只是一种临时措施,一种“在准备就绪时启动并切换到主权堆栈”的方式,而不是长期依赖。CoRover的BharatGPT也遵循类似的轨迹,利用微调模型用于当前的政府应用,同时也在开发自己的基于印度数据集的基础LLM,将当前的部署视为服务交付和数据集创建的途径。
对印度而言,发展自身的人工智能能力超越了民族自豪感;它关乎解决外国模型往往无法充分解决的问题。想象一下,一个只懂印地语的马哈拉施特拉邦农村地区的农民工,试图理解医生用英语(基于西方医学假设)通过人工智能辅助解释的X光片。这样的场景凸显了文化、生理和语境基础上的根本不匹配。印度需要能够理解迈蒂利语(Maithili)当地医学术语、提供与邦特定灌溉计划相符的作物建议、以及处理15种语言(含地域差异)公民查询的人工智能工具。这些都是高影响力的日常用例,其中的错误可能直接影响生计、公共服务和健康结果。微调开放模型为这些紧急需求提供了即时解决方案,同时为真正的主权人工智能堆栈奠定了基础。
印度AI使命是对日益增长的地缘政治担忧的战略回应。随着人工智能系统成为治理、教育、农业和国防不可或缺的一部分,对外国平台的依赖带来了数据暴露和控制权丧失的风险,正如纳亚拉能源事件所表明的那样。此外,大多数全球人工智能模型都是在以英语为主导的西方数据集上训练的,这使得它们无法很好地处理印度的语言多样性或其法律判决和农业实践的复杂性。
虽然任何国家,包括全球大国,都无法实现人工智能的完全自给自足,但印度的方法是最大限度地增加选择并减少依赖。技术政策专家Amlan Mohanty强调,主权在于控制基础设施和设定条款。他指出,印度政府务实、技术中立的立场是受制于高质量印度语数据集稀缺、计算能力不足以及缺乏为印度量身定制的现成开源替代方案等限制。
确实,高质量训练数据的缺乏,特别是在印度语言方面,仍然是一个重大障碍。谷歌DeepMind印度公司的Manish Gupta指出,有72种印度语言拥有超过10万使用者,但几乎没有数字存在。谷歌与印度科学研究所(IISc)合作的Project Vaani等倡议旨在通过在数百个印度地区收集大量语音样本来弥合这一差距,即使是对于以前缺乏数字数据集的语言。这些数据,加上谷歌的跨语言迁移能力,有助于提高低资源语言的性能,并被整合到像Gemma这样的模型中,供印度初创公司使用。
印度的分层战略为“全球南方”其他面临类似限制的国家提供了引人注目的路线图。它提供了一个构建人工智能系统的蓝图,这些系统能够反映当地语言、语境和价值观,而无需从一开始就拥有巨大的计算预算或成熟的数据生态系统。到2026年,随着印度主权LLM(如EKA)预计投入生产,这种双轨制预计将趋于融合,本土系统将逐渐取代引导式模型。
然而,即使印度初创公司正在利用全球科技巨头的开放工具进行开发,长期依赖的问题依然存在。对架构、训练技术和基础设施支持的控制权在很大程度上仍掌握在科技巨头手中。尽管谷歌已经开源了数据集并与印度AI使命的初创公司合作,但这种开放的条款可能并非总是对称的。印度的主权雄心最终取决于其超越这些开放模型的能力。对于印度和“全球南方”其他国家来说,关键问题是它们能否在访问条款改变或机会窗口关闭之前,将这种借来的支持转化为完整的主权人工智能基础设施。