在本地运行OpenAI的gpt-oss-20b LLM:操作指南

Theregister

OpenAI最近通过发布两款“开放权重”模型——gpt-oss-20bgpt-oss-120b,极大地提升了其大型语言模型(LLMs)的可访问性,允许用户直接在个人电脑上下载并运行这些先进的AI工具。这一发展标志着人工智能普及化的重要一步,使用户无需依赖云基础设施即可利用强大的模型。

两款模型中较轻的gpt-oss-20b拥有210亿个参数——这是衡量其复杂性和大小的标准——并且需要大约16GB的可用内存才能运行。其更大的兄弟模型gpt-oss-120b是一个要求高得多的模型,拥有1170亿个参数,需要高达80GB的内存。从这个角度来看,像DeepSeek R1这样的尖端“前沿”模型拥有6710亿个参数,需要大约875GB的内存,这解释了为什么主要AI开发者正在迅速建设大型数据中心。尽管gpt-oss-120b对于大多数家庭设置来说仍然遥不可及,但gpt-oss-20b却出奇地易于访问。

要运行gpt-oss-20b,电脑需要配备至少16GB专用显存(VRAM)的图形处理器(GPU),或者至少24GB的系统内存,确保至少8GB可用于操作系统和其他应用程序。性能关键取决于内存带宽。使用GDDR7或GDDR6X内存的显卡,能够以每秒超过1000 GB的速度传输数据,将显著优于典型的笔记本电脑或台式机的DDR4或DDR5内存(其运行速度在20到100 GB/s之间)。

对于本地部署,Ollama是一个关键工具。这款免费的客户端应用程序简化了在Windows、Linux和macOS上下载和执行这些LLM的过程。用户可以首先为各自的操作系统下载并安装Ollama。启动后,应用程序通常默认使用gpt-oss:20b。发起一个提示,例如“写一封信”,将触发模型数据的大量下载——根据平台不同,大约12.4GB到13GB——这个过程可能需要相当长的时间。下载完成后,用户可以通过Ollama直观的图形界面与gpt-oss-20b进行交互。

对于那些喜欢更技术化方法或寻求性能洞察的用户,Ollama还支持命令行界面(CLI)操作。从终端运行Ollama允许用户激活“详细模式”,该模式提供详细的统计数据,包括完成查询所需的时间。此选项适用于所有受支持的操作系统,提供更大的控制和诊断信息。

为了评估gpt-oss-20b的本地性能,我们使用两个提示在三种不同的硬件配置上进行了测试:一个请求是写一封600字的泰勒·斯威夫特粉丝信,另一个是关于第一位美国总统的简单查询。测试设备包括联想ThinkPad X1 Carbon笔记本电脑(Core Ultra 7-165U CPU,64GB LPDDR5x-6400 RAM)、Apple MacBook Pro(M1 Max CPU,32GB LPDDR5x-6400 RAM)和一台配备独立Nvidia RTX 6000 Ada GPU的自建PC(AMD Ryzen 9 5900X CPU,128GB DDR4-3200 RAM)。

联想ThinkPad X1 Carbon表现出明显的慢速性能。粉丝信花了10分钟13秒,而简单的总统查询则需要51秒。这种迟缓主要归因于Ollama无法利用笔记本电脑的集成显卡或神经网络处理单元(NPU),从而将处理强制转移到效率较低的CPU上。在这个“思考”阶段,模型通常会花费一到两分钟进行处理,然后才生成输出。相比之下,Apple MacBook Pro尽管内存速度与ThinkPad相似,但性能显著优于它,仅用26秒就完成了粉丝信,并在短短三秒内回答了总统问题。不出所料,由高端Nvidia RTX 6000 Ada GPU驱动的台式PC在短短六秒内就完成了粉丝信,并在不到半秒内回答了总统查询。

这些结果强调,gpt-oss-20b的本地性能高度依赖于硬件。配备强大专用GPU或现代Apple Silicon处理器的系统可以期待强大的性能。然而,使用Intel或AMD处理器笔记本电脑的用户,如果依赖Ollama不完全支持的集成显卡,可能会遇到相当大的延迟,可能需要暂停等待查询处理。对于面临此类性能瓶颈的用户,像LM Studio这样的替代应用程序,同样有助于本地LLM执行,可能会提供更优化的体验。