网站首页 > 新闻中心  > 最新资讯
元脑服务器推出轻量推理方案:NF5280G7全面支持DeepSeek和QwQ,加速AI落地
2025/07/03

浪潮信息面向百人规模中小企业推出轻量推理方案,基于元脑服务器NF5280G7,可运行DeepSeek和千问QwQ等新一代大推理模型。NF5280G7,采用2颗高性能通用CPU,内置AI加速器,支持多通道内存系统,搭配1块中低端主流消费级显卡/GPU卡,充分平衡、调用CPU算力和智能算力,单机即可运行DeepSeek-R1 32B和QwQ-32B推理模型,16并发用户时,单用户性能超38 tokens/s,用是企业部署上线大模型平台的高性价比算力选择,将加速DeepSeek带动下AI落地普及速度。




在企业部署大模型的过程中,参数规模与其应用场景息息相关。浪潮信息与IDC联合发布的《2025年中国人工智能计算力发展评估报告》显示,目前92%企业使用的生成式人工智能模型平均参数量小于50B。一般而言,671B等超大规模参数的模型性能更强,但对硬件资源要求高,部署成本昂贵;而32B级模型在理解能力和知识储备上有显著优势,能够平衡性能和部署成本。以业界32B模型为例,DeepSeek-R1 32B在知识问答、智能写作、内容生成等方面表现优,QwQ-32B则在数学推理、编程任务和长文本处理等方面的性能优。DeepSeek-R1 32B和QwQ-32B的训练数据中包含海量的高质量中文语料库,会更加适合于国内企业应用。因此,大多数企业应用场景中,如企业知识库问答、文档写作、会议纪要整理等场景,32B参数级别的模型选择,既能提供强大的能力支持,又能保持合理的硬件投入。


将AI推理过程拆开来看,LLM推理过程主要包含两个阶段:预填充和解码;其中预填充阶段是对输入进行处理的阶段,性能主要取决于CPU算力,解码阶段需要逐token计算,每次生成一个token都要内存带宽加载一次模型执行推理,性能主要取决于内存带宽。


在算力方面,元脑服务器NF5280G7设计上采用2颗高性能处理器,内置AI加速器功能,仅需搭配1张中低端主流消费级显卡/GPU卡,即可实现单机超强的AI推理能力。NF5280G7轻量推理方案充分利用并平衡CPU算力和智能算力,进行软硬协同优化,支持DeepSeek-R1 32B和QwQ-32B等大模型的推理,为中小企业用户提供了高性价比的部署平台。


测试数据显示,基于单台NF5280G7搭配1块市场主流消费级显卡的方案,在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下,支持16个用户并发数的情况下解码性能超过38.1tokens/s;在使用QwQ-32B Q4进行模型推理时,支持16个并发用户数的情况下解码性能达到38.3tokens/s;可以提供流畅稳定的用户体验。


当前,元脑服务器研发团队正与业内团队密切合作,在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力,旨在为用户带来高速、稳定的DeepSeek等大模型部署方案,助力大模型快速落地应用。


热门搜索: 长沙曙光服务器 | 长沙浪潮服务器 | 长沙惠普服务器 

版权所有:长沙共和信息科技有限公司
网站备案: 湘ICP备19019056号

版权声明:本网站所刊内容未经本网站及作者本人许可,不得下载、转载或建立镜像等,违者本网站将追究其法律责任。本网站所用文字图片部分来源于公共网络或者素材网站,凡图文未署名者均为原始状况,但作者发现后可告知认领,我们仍会及时署名或依照作者本人意愿处理,如未及时联系本站,本网站不承担任何责任。