TPC25：领导者探讨科学领域LLM的信任、规模与评估

在最近的TPC25会议上，两位杰出人物就大型语言模型（LLM）在科学研究中的未来提出了独特而互补的愿景。他们的讨论强调了一个关键的双重挑战：如何在培养对这些强大AI系统的信任的同时，扩展其能力和部署。

阿贡国家实验室的弗兰克·卡佩罗（Franck Cappello）介绍了EAIRA，这是一个旨在严格评估AI研究助手的新颖框架。他的核心关注点在于建立推理、适应性和领域特定专业知识的衡量标准，这对于研究人员自信地将复杂的科学任务委托给LLM而无需持续人工监督至关重要。卡佩罗强调了AI同事日益增长的雄心，它们不再仅仅是文献筛选工具，而是能够进行假设生成、代码编写，甚至是实验设计和执行。他指出，挑战在于评估一个“黑箱”系统，其内部运作不透明，这与传统的科学仪器不同。当前的评估方法，如多项选择题和开放式回答，往往不足，因为它们过于通用、静态，或容易受到模型训练中数据污染的影响。EAIRA提出了一种全面、不断演进的方法，将事实回忆评估（多项选择题）与高级推理评估（开放式回答）、受控的实验室式实验以及大规模、真实世界的现场实验相结合，以捕捉跨越不同科学领域的复杂研究人员与LLM的交互。

来自东京工业大学的横田理央（Rio Yokota）教授详细介绍了日本雄心勃勃的LLM双管齐下发展战略。LLM-jp联盟率先利用日本最强大的超级计算机（包括ABCI和富岳）训练大型模型。这项大规模倡议强调构建广泛的多语言数据集，探索高达1720亿参数的架构，并投入数百万高性能GPU小时以保持全球竞争力。横田强调，如此规模的开发需要细致的协调和严格的实验，并指出单个参数设置不当可能导致数百万美元的训练成本浪费。LLM-jp的一个关键方面是其对快速知识共享的承诺，确保进展迅速传播到参与的大学、政府研究中心和企业合作伙伴。

与这种宏大规模相辅相成的是规模较小、更灵活的Swallow项目。该项目专注于有针对性的实验，开发高效的训练方法和更精简的模型架构。Swallow探索了诸如专家混合（MoE）设计等创新技术，其中只有一部分专业子模型会针对给定输入激活，从而在保持准确性的同时显著降低计算成本。该项目是测试那些在大型模型上测试可能过于昂贵的风险想法的试验场，Swallow项目中学到的经验几乎立即反馈到更大的LLM-jp模型中。

卡佩罗和横田的演讲焦点明确：LLM若要在科学领域充分发挥其潜力，信任和规模必须同步发展。如果模型的输出无法验证，即使最严格的评估方法也会失去价值；如果评估不应用于能够解决复杂现实世界问题的系统，其价值同样受限。科学AI的未来取决于开发既能力宏大又经过严格透明测试的模型。

TPC25：领导者探讨科学领域LLM的信任、规模与评估

相关文章

75% HR专家拥抱AI：应对简历欺诈与自动化困境

中国人形机器人大赛：技术突破、局限与地缘政治博弈

ALITA启动亚太法律AI与科技调查，助力2025报告发布