在本地运行OpenAI的gpt-oss-20b LLM：操作指南

OpenAI最近通过发布两款“开放权重”模型——gpt-oss-20b和gpt-oss-120b，极大地提升了其大型语言模型（LLMs）的可访问性，允许用户直接在个人电脑上下载并运行这些先进的AI工具。这一发展标志着人工智能普及化的重要一步，使用户无需依赖云基础设施即可利用强大的模型。

两款模型中较轻的gpt-oss-20b拥有210亿个参数——这是衡量其复杂性和大小的标准——并且需要大约16GB的可用内存才能运行。其更大的兄弟模型gpt-oss-120b是一个要求高得多的模型，拥有1170亿个参数，需要高达80GB的内存。从这个角度来看，像DeepSeek R1这样的尖端“前沿”模型拥有6710亿个参数，需要大约875GB的内存，这解释了为什么主要AI开发者正在迅速建设大型数据中心。尽管gpt-oss-120b对于大多数家庭设置来说仍然遥不可及，但gpt-oss-20b却出奇地易于访问。

要运行gpt-oss-20b，电脑需要配备至少16GB专用显存（VRAM）的图形处理器（GPU），或者至少24GB的系统内存，确保至少8GB可用于操作系统和其他应用程序。性能关键取决于内存带宽。使用GDDR7或GDDR6X内存的显卡，能够以每秒超过1000 GB的速度传输数据，将显著优于典型的笔记本电脑或台式机的DDR4或DDR5内存（其运行速度在20到100 GB/s之间）。

对于本地部署，Ollama是一个关键工具。这款免费的客户端应用程序简化了在Windows、Linux和macOS上下载和执行这些LLM的过程。用户可以首先为各自的操作系统下载并安装Ollama。启动后，应用程序通常默认使用gpt-oss:20b。发起一个提示，例如“写一封信”，将触发模型数据的大量下载——根据平台不同，大约12.4GB到13GB——这个过程可能需要相当长的时间。下载完成后，用户可以通过Ollama直观的图形界面与gpt-oss-20b进行交互。

对于那些喜欢更技术化方法或寻求性能洞察的用户，Ollama还支持命令行界面（CLI）操作。从终端运行Ollama允许用户激活“详细模式”，该模式提供详细的统计数据，包括完成查询所需的时间。此选项适用于所有受支持的操作系统，提供更大的控制和诊断信息。

为了评估gpt-oss-20b的本地性能，我们使用两个提示在三种不同的硬件配置上进行了测试：一个请求是写一封600字的泰勒·斯威夫特粉丝信，另一个是关于第一位美国总统的简单查询。测试设备包括联想ThinkPad X1 Carbon笔记本电脑（Core Ultra 7-165U CPU，64GB LPDDR5x-6400 RAM）、Apple MacBook Pro（M1 Max CPU，32GB LPDDR5x-6400 RAM）和一台配备独立Nvidia RTX 6000 Ada GPU的自建PC（AMD Ryzen 9 5900X CPU，128GB DDR4-3200 RAM）。

联想ThinkPad X1 Carbon表现出明显的慢速性能。粉丝信花了10分钟13秒，而简单的总统查询则需要51秒。这种迟缓主要归因于Ollama无法利用笔记本电脑的集成显卡或神经网络处理单元（NPU），从而将处理强制转移到效率较低的CPU上。在这个“思考”阶段，模型通常会花费一到两分钟进行处理，然后才生成输出。相比之下，Apple MacBook Pro尽管内存速度与ThinkPad相似，但性能显著优于它，仅用26秒就完成了粉丝信，并在短短三秒内回答了总统问题。不出所料，由高端Nvidia RTX 6000 Ada GPU驱动的台式PC在短短六秒内就完成了粉丝信，并在不到半秒内回答了总统查询。

这些结果强调，gpt-oss-20b的本地性能高度依赖于硬件。配备强大专用GPU或现代Apple Silicon处理器的系统可以期待强大的性能。然而，使用Intel或AMD处理器笔记本电脑的用户，如果依赖Ollama不完全支持的集成显卡，可能会遇到相当大的延迟，可能需要暂停等待查询处理。对于面临此类性能瓶颈的用户，像LM Studio这样的替代应用程序，同样有助于本地LLM执行，可能会提供更优化的体验。

在本地运行OpenAI的gpt-oss-20b LLM：操作指南

相关文章

阿里巴巴Qwen-Image-Edit：开源AI图像编辑技术突破

Claude与Hugging Face：新模型赋能，无缝AI图像生成

Google 发布 Gemma 3 270M：设备端微型AI，性能卓越