争夺全球AI霸权:科技巨头竞相攻克印度语言

Livemint

随着谷歌和Meta等全球科技巨头积极扩展其语言支持,人工智能霸权的竞争正在印度迅速加剧。这场日益激烈的竞争突显了AI发展的一个根本性转变:从其主要以英语为中心的根基转向多元化。印度拥有庞大而多样化的语言版图,覆盖17亿人口,这为AI的增长提供了一个巨大且尚未开发的领域,使地区语言成为技术主导地位的关键战场。

AI模型面临的根本挑战源于其训练数据。这些强大的系统建立在庞大的信息库之上,而绝大多数公开可用的互联网内容都是英文的。因此,全球领先的AI模型天生就偏向英语,这在处理其他语言的查询时可能导致不准确和误解。这种固有的局限性使得更广泛的语言可访问性不仅是一种优势,而且是旨在实现真正全球覆盖和准确用户交互的AI公司的一项基本必要条件。

印度的语言多样性为这一战略转向提供了令人信服的理由。例如,印地语是世界第三大常用语言,仅次于英语和普通话。总的来说,十种印度语言的使用者达到17亿人,约占全球人口的21%。这一数字超过了英语使用者总数(15亿)和各种汉语方言的总和(14亿),使印度成为科技公司参与的单一最大语言区域。除了纯粹的数量,专家们强调每种语言都拥有独特的细微差别、地区方言和文化复杂性,这使得印度语言成为开发能够服务于真正全球受众的AI模型的宝贵资源。

全球主要参与者无疑正在抓住这一机遇。就在最近,OpenAI首席执行官萨姆·奥特曼宣布,他们最新的模型GPT-5直接支持十二种印度语言。此前,谷歌去年也进行了扩展,其Gemini AI模型获得了对九种印度语言的内置支持。Meta也做出了类似承诺,其Llama系列的AI模型现在支持八种印度语言。甚至像Anthropic的Claude这样的硅谷新入者也支持印地语和孟加拉语,而另一家知名初创公司Perplexity则支持印地语的输入和输出。

印度的本土AI生态系统也在蓬勃发展,当地初创公司专注于开发本土语言模型。今年5月,Sarvam发布了一款在十一种印度语言上训练的文本到语音AI模型。同月,会话式语音AI初创公司Gnani被选中成为“印度AI使命”雄心勃勃的政府支持计划下的四家公司之一,并宣布计划开发一个复杂的140亿参数语音AI模型。其他著名的印度公司,如BharatGPT的创造者CoRover和Soket,也在积极开发基于本地语言进行原生训练的AI模型,这标志着一项强劲的本土努力。

尽管印度是任何AI公司最大的用户基础之一,但评估其商业潜力仍然复杂。从历史上看,多样化的消费者行为使得货币化充满挑战,印度仅占全球科技公司净收入的1%到4%。然而,AI优先的公司乐观地认为,它们可以逐步提高收入。预计AI工具和平台(通常需要企业级订阅)将在印度庞大的用户群中找到巨大的市场,从而将其转变为主要的货币化中心。

此外,印度设想在全球AI格局中扮演更广泛的角色,有可能复制其在数字公共基础设施(DPI)方面的成功。在政府的大力支持下,印度正齐心协力构建基于印度语言原生训练的基础AI模型。行业资深人士认为,从长远来看,这样一个全面的AI模型可以作为全球其他非英语AI模型的模板,特别是在全球南方国家。这一战略举措,类似于印度在数字支付领域开创性的统一支付接口(UPI),旨在利用AI作为一种软实力,为发展中国家提供先进的技术解决方案,并巩固印度在全球舞台上的影响力。