这是一个人工智能的时代,这是一个计算能力的时代。
遗憾的是,我们无法获得最先进的AI硬件和计算能力。用H20两次阉割n卡,付出几百亿元,真的很憋屈。
面对不断上升的AI算力需求,只有发展自己的国产解决方案,发展自己的大规模AI算力集群,才能突破重围,走上康庄大道。
说到这里,很多人可能会第一时间想到华为。在美国的制裁下,作为中国企业标杆的腾腾910B在AI计算领域取得了一定的成就。
当然,中国只依靠一个华为是不够的。中国的AI生态需要遍地开花,这样才有可能取得更多突破,让生态更加繁荣。
目前摩尔线程走的是全功能GPU通用计算路线,这是另一条希望之路。特别是成为华为之外又一家能够实现千卡千亿参数大模型训练和推广的民族AI芯片公司。
说起来,大家都很熟悉摩尔线程,这是中国自主GPU的最大希望。然而很多人对摩尔线程的认知还停留在国产游戏显卡上,实则不然。摩尔线程在AI方面也很突出。
自成立以来,摩尔线程一直在做通用GPU,它与NVIDIA一样,除了图形渲染外,还可用于AI人工智能加速和科学计算。
经过三年多的潜心开发,摩尔线程在AI GPU方面展现出强劲实力,构建了从芯片、板卡、服务器、集群、软件栈的全栈式AI智能计算产品布局,并已多点落地、遍地开花。
比如与清华AI大模型公司的合作。摩尔线程是国内第一家在不提问的情况下访问core dome并成功完成千卡级大模型训练的GPU公司。
摩尔线程的“KUAE”千卡智能计算集群已与无球顶Infini-AI大模型开发与服务平台匹配,并完成了LLama2 700亿参数大模型的训练测试。最近,双方完成了“MT-infini-3B”3B(30英寸3B(30亿个参数)模型的训练。
这是什么意思?这是业界首个基于国产GPU芯片从0到1的端到端大规模模型训练案例。夸e也成为业内首个成功跑通并全面跑通国产大机型的千卡集群。
Questionless Core Vault联合创始人兼CEO夏对此表示支持:“经过Infini-AI平台的训练和联合优化,摩尔线程葵千卡智能计算集群在精度、性能、易用性和算力利用方面均有出色表现,并实现了长期稳定训练而不中断训练,可为千亿级参数的大规模模型训练提供持续高效的高性能计算支持。”
此外还有迪普科技、现实智能等。还成功完成了基于摩尔线程Qua千卡智能计算集群的不同参数阶大型模型的分布式训练测试,具有完美的效率、准确性和稳定性。基于摩尔线程Qua-kilo caloria智能计算集群,迪谱科技成功完成700亿参数LLaMA2语言模型的预训练测试,总训练时间77小时,全程连续运行无故障,集群训练稳定性达到100%。
Kuae是摩尔线程推出的智能计算中心全栈式解决方案,Kuae这个名字来源于中国传说中的大力士KUAE。
可以说,为AI计算集群取这样一个名字,充分显示了独属于中国人的毅力和浪漫情怀。出自《龚宇依山》:“皇帝感到真诚,命令夸娥的二儿子背负两座山,一座在东边,一座在南边。”此后,河北之南和汉之阴一直没有断过。"
Kwae解决方案的基础节点是由大规模智能计算加速卡MTT S4000组成的双向八卡GPU服务器“MCCX D800”,以软硬件一体化交付、开箱即用的方式解决大规模GPU算力建设和运维管理问题。
MTT S4000是摩尔线程基于其自主研发的第三代MUSA架构,专为AI大模型打造的新一代智能计算加速卡。
采用自研的MTLink互联技术,MTT S4000可高效并行数千张卡,线性加速比高达91%。
最关键的是,摩尔线程拥有自研的全功能GPU MUSA统一系统架构,包括指令集架构、MUSA编程模型、驱动程序、运行时库、运算符库、通信库、数学库等。,而且它完全兼容CUDA软件生态,代码几乎可以零成本迁移,无需担心未来的可用性问题。
MTT S4000不仅可用于大规模AI计算,还具有领先的图形渲染能力、视频编解码能力和8K超高清显示能力。
这使得支持数字孪生、云游戏、云渲染、数字内容创作等场景成为可能,并以大模型推理能力服务于AIGC等多模态业务场景。
从2024年的趋势来看,多模式的需求将快速上升。英伟达首席财务官科莱特·克雷斯曾经预测这项业务将从零增长到数十亿美元,国产芯片也是如此。
MCCX D800作为AI大规模模型训练和推送机,是一款旨在充分发挥其训练和推理性能、稳定性和可靠性以支持MTT S4000大规模模型智能计算加速卡的服务器系统,并兼容主流GPU软硬件生态。
这样,从核心基础层的MUSA统一架构芯片,到功能强大、可灵活部署的MTT系列智能加速卡,到高度集成的完整训练推送一体机,再到小型智能微模块,最后到Quae Qianka集群,摩尔线程提供了一整套功能齐全的GPU产品组合。
这样,不同需求的客户可以根据实际情况选择最适合自己的相应分层方案。
葵e智能计算中心的全栈式解决方案包括底层以葵e计算集群为核心的基础设施、中层的KUAE平台集群管理平台和顶层的KUAE Model Studio大模型平台。软件和硬件集成开箱即用,一站式解决方案和集成交付。
首先在基础设施方面,全功能GPU是最牢固的基石,拥有AI加速计算、3D图形渲染、超清视频编解码、物理仿真和科学计算四大计算引擎。在功能上,它是国内唯一可以对标NVIDIA的全功能国产GPU。
其次是软硬件一体化,由于不同于传统GPU从芯片到卡的路径,摩尔线程走的是系统级平台的路线,不仅拥有千卡规模的算力集群,还拥有集群管理平台和大模型平台,从而实现软硬件结合,以一体化交付的方式解决大规模GPU算力的建设和运行管理问题。
最后是全栈方案,从底层基础设施,到中间管理平台,再到上层应用,摩尔线程已实现全面覆盖,具备云端全栈能力,可有效为千亿级参数大模型的训练和推理提供有力支撑。
综上所述,Quae智能计算集群的全栈方案具有八大核心优势:
首先,它涵盖了广泛的模型,支持包括美洲驼、GLM、Aquila、百川、GPT、布鲁姆和玉燕在内的数十种主要模型的训练和微调。
第二,CUDA兼容主流生态。使用Moore线程代码移植工具Musify可以几乎无成本地将CUDA代码自动迁移到Moore线程统一系统架构MUSA上,然后快速进行优化,并且完全独立可靠。
三是断点连续训练,可以实时监控训练任务集群,分分钟发现故障,自动恢复训练。再加上检查点备份和恢复,可以大大降低故障率,使综合训练效率提高15-50%。
第四是大型模型的分布式训练,支持主流分布式框架如DeepSpeed、Megatron-DeepSpeed、spool-AI、FlagScale等。,并集成了多种并行算法策略,还支持大模型分布式训练的断点连续训练和分布式推理。
五是推理加速,包括KUAEModel Studio集成应用平台、MUSA Serving推理服务软件、MT Transformer分布式推理加速框架和TensorX推理加速框架四个部分,可有效支持主流大型语言模型的推理。
六是高性能通信,包括2/4/8卡节点内互联、PCIe和自研MT-Link链路带宽聚合、自研MCCL聚合通信库等。MT-Link的带宽高达112 GB/s。
第七,高性能存储,支持通过RDMA网络读写存储数据、GPU直接存储、数据读写加速、数据缓存加速、AI训练数据集加载加速、高性能并行文件系统、与外部存储交换冷热数据等。
第八是集群的可靠性和性能,可以完全支持万卡以上大规模GPU集群的运行。
历史无数次证明,越是困难的时候,越需要人们勇敢站出来,独立自主,打破封锁,AI计算时代也是如此。
作为首个基于全功能GPU的千亿千卡国家级训练平台,Moore-thread Kwae千卡集群方案在软硬件设计、性能算力和生态应用等方面实现了突破,凭借自研的软硬件架构、开发平台和通用计算路线,在多个方面具有独特优势。
尤其是在国际环境恶劣、国内GPU技术相对薄弱的情况下,摩尔线程是最有希望突破的。唯一的全功能GPU在功能方面可以与NVIDIA竞争。尤其是摩尔线程的创始团队基本都来自NVIDIA。创始人张建中是前NVIDIA全球副总裁兼中国区总经理。他不仅有丰富的行业经验和雄厚的技术基础,而且知己知彼百战不殆。
除了技术之外,GPU行业也迎来了政策利好,这更有利于实现突破。
例如,北京市日前发布的《北京市计算基础设施建设实施方案(2024-2027年)》明确提出,要加快核心软硬件产品自主可控,构建自主可控计算技术体系,推进人工智能模型和自主可控芯片适配。
对于采购自主可控GPU芯片并提供智能计算服务的企业,将按照投资的一定比例予以支持,加快智能计算资源供给。
从千卡高效互联的领先算力到软硬件的高度优化集成,从大规模模型训练和推理的集成到高稳定性和可靠性,摩尔线程Quae千卡集群在各方面都有成熟的经验,堪称“中国NVIDIA”,最有希望实现国产自主替代,解决国内AI算力不足的问题。