发布时间: 2025/6/30 13:51:18 | 37 次阅读
6月30日,华为宣布正式开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合模型以及基于昇腾的模型推理技术。此次开源覆盖 “模型架构 - 推理引擎 - 硬件适配” 全链条,是华为践行昇腾生态战略的关键一步,旨在推动大模型技术的研究与创新,加速人工智能在各行各业的应用与价值创造。
根据华为信息,盘古Pro MoE 72B模型的权重和基础推理代码已正式在开源平台上线。该模型采用分组混合(MoGE)架构,通过分组均衡路由技术,确保跨设备的计算负载均衡,解决了传统混合模型(MoE)中激活频次不均衡的问题。
在昇腾300I Duo和800I A2硬件平台上,盘古Pro MoE 72B模型实现了更优的负载分布与计算效率,推理速度分别达到321 tokens/s和1528 tokens/s。此外,该模型在SuperCLUE等权威评测中表现出色,以72B参数量达到了59分,与千亿参数级别的模型并列国内,展现出强大的综合能力。
华为还开源了基于昇腾的超大规模MoE模型推理代码。昇腾平台专为人工智能计算设计,具备强大的并行计算能力和高效的能源利用率,能够为大规模模型的推理提供强大的支持。通过深度融合昇腾硬件的特性,盘古模型在推理效率和性能方面得到了显著提升。
华为诺亚方舟实验室在大模型领域不断探索创新。此前,该团队成功开发了基于昇腾算力训练的千亿级通用语言大模型Pangu Ultra,并在多个领域和评测中取得了优异的成绩。
在模型架构、训练策略、系统优化等方面,华为的研究团队提出了一系列创新技术,如Depth-scaled Sandwich-Norm(DSSN)、TinyInit初始化方法等,有效提升了模型的训练稳定性和性能。
在模型训练方面,Pangu Ultra采用分阶段预训练策略,涵盖了通用能力训练、推理能力增训和退火阶段,确保模型能够全面学习和掌握不同类型的知识和技能。此外,针对长序列训练和后训练优化,研究团队也进行了深入的研究和实践,进一步提升了模型的能力。
据悉,盘古7B模型的相关权重与推理代码也将于近期上线开源平台。这款模型以其较小的参数规模和高效的推理能力,适用于多种应用场景,能够为开发者和企业提供灵活的选择。
华为此次开源行动不仅体现了其在推动人工智能技术发展方面的承诺,也展示了其对构建开放、协作的AI生态系统的重视。通过开源盘古模型及其相关技术,华为诚邀开发者、企业伙伴及研究人员使用,并反馈使用意见,共同完善模型,推动技术进步。