声音AI成功秘诀:丹尼洛夫专家称低延迟胜过“人声”

Aitimejournal

声音AI的未来不在于完美模仿人类语音,而在于实现让交互感觉自然和即时的响应速度。这是声音AI研究员兼跨学科工程师维塔利·丹尼洛夫的观点,他认为延迟而非语言细微差别将推动界面革命。

语音助手市场正在经历显著增长,预计将从2024年的35.4亿美元扩大到2025年的46.6亿美元,到2025年全球将有约84亿台语音助手设备投入使用。尽管如此,语音技术在企业环境和业务自动化中仍未得到充分利用。丹尼洛夫,一家专注于跨境通信的美国声音AI初创公司的联合创始人,认为这种情况即将改变。他结合了金融分析、政治学和计算机科学的背景,为评估该技术的潜力提供了独特的视角。

“人们对机器人的语调的容忍度高于对五秒延迟的容忍度,”丹尼洛夫指出。他多样化的专业知识提供了对业务逻辑、人类行为和技术可行性的全面理解,使他能够辨别真正的创新与炒作。他强调,语音至少比打字快三倍,并且最近的语音识别进展已使其足够准确,能够处理现实世界的噪音和口音。他断言,这一技术转折点将导致语音在许多人机交互中取代文本,尤其是在声音AI与AI驱动的数字员工的兴起相结合时。曾经简单的聊天机器人正在演变为一个能够聆听、推理和以自然语言回应的复杂数字代理。

从财务角度来看,用启用语音的数字员工取代人类办公室工作人员的理由是令人信服的。白领职位通常涉及高薪和奖金,这使得其自动化对于即时投资回报具有高度吸引力。企业使用一个简单的公式来评估这一点:权衡预期收益(减少开支、增加收入)的现值与预测风险(成本和失败的可能性)。数字员工预计将首先进入高成本、低变异和低风险的办公室职位,其中错误的财务风险最小。例如,客户支持中的错误可能只会轻微地让客户感到沮丧,但法律咨询或供应商付款中的错误可能导致巨大的财务或法律后果,从而改变自动化计算。

将语音接口集成到企业环境中的动力在于它们能够降低成本或增加收入。声音AI可以增强或取代昂贵地区的人工代理,提供24/7无等待时间的客户支持,并消除节假日期间呼叫转接的需要。在收入方面,丹尼洛夫指出汽车经销商,超过一半的来电未被接听,这代表着巨大的销售损失。一个处理这些电话的语音代理,即使转换率不高,也能显著增加收入。他强调,当技术快速、廉价且稳定时,它就会被广泛采用,而语音现在正达到这一门槛。然而,扩展基于语音的数字员工需要强大的云基础设施。

丹尼洛夫的初创公司专注于为使用AI语音系统的跨境通信开发可扩展的云技术。他解释说,语音技术比视频流轻,但比打字重,因此需要大量的云处理能力来实现实时音频。如果服务分布在不同地点或云上,延迟很快就会成为问题。最有效的系统将自动语音识别(ASR)、大型语言模型(LLMs)和文本转语音(TTS)集成在同一物理实例或数据中心内。AWS、Azure和Google Cloud等领先的云提供商通过提供集成服务(包括情感分析和翻译)来促进采用,从而最大限度地减少开发人员的摩擦。

关于数字员工的商业模式,丹尼洛夫预计订阅和基于绩效的交易将占据主导地位,这与人类雇佣模式类似。订阅模式类似于月薪,可能成为客户服务、报告和任务自动化等内部支持角色的标准。这种模式提供可预测性并符合现有预算实践。对于销售机器人等绩效驱动型功能,预计将采用交易模式,即支付是产生收入的百分比——类似于基于或有费用的法律费用。这种方法对供应商来说风险更大,但对买家来说极具吸引力。丹尼洛夫认为,以工资或佣金的形式框定数字员工成本将有助于它们融入现有的业务思维模式。

丹尼洛夫借鉴他为25家全球汽车工厂迁移金融系统的经验,强调了部署数字员工的关键经验教训。至关重要的是,“你不能自动化未文档化的东西。”与能够推断和适应的人类不同,数字员工需要完全规划好的工作流程,包括所有输入、输出、异常和失败案例,以防止错误和故障。如果指令不明确或业务逻辑未文档化,自动化就为时过早。信任也至关重要;数字员工,就像新入职的人类员工一样,必须赢得自己的位置。部署应从小规模开始,密切观察,然后再跨地域或业务部门扩展——这是一种“慢速入职,快速扩展”的心态。

尽管潜力巨大,丹尼洛夫观察到语音技术仍然受到有限的关注,即使在尖端初创公司中也是如此。作为2025年第20届Globee技术奖的评委,他指出50份提交的申请中只有少数关注语音,大多数集中在文本和基于LLM的工作流程。他将此归因于风险投资倾向于资助热门领域,认为语音是一个小众市场。然而,他认为下一个重大进展将出现在语音和视觉等被忽视的领域。人类天生就适合语音,广泛采用只是基础设施跟上的问题。这种从文本到语音的转变不仅是技术上的,也是文化和世代上的。

丹尼洛夫同时也是纽约大学校友科技俱乐部的导师,他建议年轻专业人士在职业生涯早期保持好奇心和灵活性,广泛学习并快速探索。经验更丰富的人应该专注于深化专业知识。他澄清说,为语音技术的主导地位做准备并非要掌握特定的“语音技能”,而是要将语音理解为底层AI智能的另一种输入方法。真正的转变是文化上的:机器与人类的交互方式将像人类彼此交互一样。这种转变将创造新的工作类别并取代其他工作。在全球范围内,语音技术还将使服务、教育和工作机会民主化,超越仅仅是人机交互的范畴。

他的工作致力于简化远程社区的跨语言沟通。他预测,语音技术将消除翻译等中间人的需求,使全球范围内的商业、教育和与AI代理的交互能够直接以数十种语言进行沟通。虽然语音比文本具有速度优势,但它不会从根本上改变人类的沟通方式。然而,这些系统是资源密集型的,运营成本不会低廉。访问将大幅扩展,主要面向那些能够负担得起服务的人。与许多数字经济产品一样,免费服务将存在,但通常附带用户或其数据成为产品的警告。