元脑服务器推出轻量推理方案：NF5280G7全面支持DeepSeek和QwQ，加速AI落地

2025/07/03

浪潮信息面向百人规模中小企业推出轻量推理方案，基于元脑服务器NF5280G7，可运行DeepSeek和千问QwQ等新一代大推理模型。NF5280G7，采用2颗高性能通用CPU，内置AI加速器，支持多通道内存系统，搭配1块中低端主流消费级显卡/GPU卡，充分平衡、调用CPU算力和智能算力，单机即可运行DeepSeek-R1 32B和QwQ-32B推理模型，16并发用户时，单用户性能超38 tokens/s，用是企业部署上线大模型平台的高性价比算力选择，将加速DeepSeek带动下AI落地普及速度。

在企业部署大模型的过程中，参数规模与其应用场景息息相关。浪潮信息与IDC联合发布的《2025年中国人工智能计算力发展评估报告》显示，目前92%企业使用的生成式人工智能模型平均参数量小于50B。一般而言，671B等超大规模参数的模型性能更强，但对硬件资源要求高，部署成本昂贵；而32B级模型在理解能力和知识储备上有显著优势，能够平衡性能和部署成本。以业界32B模型为例，DeepSeek-R1 32B在知识问答、智能写作、内容生成等方面表现优，QwQ-32B则在数学推理、编程任务和长文本处理等方面的性能优。DeepSeek-R1 32B和QwQ-32B的训练数据中包含海量的高质量中文语料库，会更加适合于国内企业应用。因此，大多数企业应用场景中，如企业知识库问答、文档写作、会议纪要整理等场景，32B参数级别的模型选择，既能提供强大的能力支持，又能保持合理的硬件投入。

将AI推理过程拆开来看，LLM推理过程主要包含两个阶段：预填充和解码；其中预填充阶段是对输入进行处理的阶段，性能主要取决于CPU算力，解码阶段需要逐token计算，每次生成一个token都要内存带宽加载一次模型执行推理，性能主要取决于内存带宽。

在算力方面，元脑服务器NF5280G7设计上采用2颗高性能处理器，内置AI加速器功能，仅需搭配1张中低端主流消费级显卡/GPU卡，即可实现单机超强的AI推理能力。NF5280G7轻量推理方案充分利用并平衡CPU算力和智能算力，进行软硬协同优化，支持DeepSeek-R1 32B和QwQ-32B等大模型的推理，为中小企业用户提供了高性价比的部署平台。

测试数据显示，基于单台NF5280G7搭配1块市场主流消费级显卡的方案，在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下，支持16个用户并发数的情况下解码性能超过38.1tokens/s；在使用QwQ-32B Q4进行模型推理时，支持16个并发用户数的情况下解码性能达到38.3tokens/s；可以提供流畅稳定的用户体验。

当前，元脑服务器研发团队正与业内团队密切合作，在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力，旨在为用户带来高速、稳定的DeepSeek等大模型部署方案，助力大模型快速落地应用。