3月24日,据悉,蚂蚁集团利用国产芯片开辟了一种锻炼人工智能模子的手艺,可将成本降低20%。据中国基金报报道,知恋人士称,蚂蚁集团采用了国产芯片,基于所谓的“专家夹杂”(Mixture of Experts)机械进修方式来锻炼模子。该公司取得的结果取英伟达H800等芯片的成果相当。据证券时报报道,蚂蚁集团Ling团队的手艺论文《每一个FLOP都至关主要:无需高级GPU即可扩展3000亿参数夹杂专家LING大模子》已颁发正在预印版Arxiv平台上。据手艺论文,虽然DeepSeek、阿里通义千问、MiniMax等系列的MoE大模子正在特定使命中展示出杰出机能,可是MoE模子的锻炼凡是依赖高机能计较资本(如英伟达H100/H800等先辈GPU),昂扬成本限制了正在资本受限中的普及使用。同时,近年来英伟达高机能芯片持续欠缺,比拟之下,低机能加快器供应更充脚且单机成本更低。这种差别凸显了建立跨异构计较单位取分布式集群无缝切换手艺框架的需要性。因而,Ling团队设定的方针是“晦气用高级GPU”来扩展模子,并通过提出立异性的锻炼策略,旨正在冲破资本取预算实现高效狂言语模子锻炼,从而鞭策AI手艺向普惠化标的目的成长。具体而言,团队提出的立异策略包罗:1)架构取锻炼策略改革:动态参数分派取夹杂精度安排手艺;2)锻炼非常处置机制升级:自顺应容错恢复系统缩短中缀响应时间;3)模子评估流程优化:从动化评测框架压缩验证周期超50%;4)东西挪用能力冲破:基于学问图谱的指令微调提拔复杂使命施行精度。据手艺论文,Ling团队正在五种分歧的硬件设置装备摆设上对9万亿个token进行Ling-Plus的预锻炼,此中利用高机能硬件设置装备摆设锻炼1万亿token的预锻炼成本约为635万元人平易近币,但操纵蚂蚁的优化方式后,利用低规格硬件的锻炼成本将降至508万元摆布,节流了近20%,最终实现取阿里通义Qwen2。5-72B-Instruct和DeepSeek-V2。5-1210-Chat相当的机能。此前,DeepSeek通过一系列算法立异及工程优化,利用机能较低的英伟达H800锻炼出了机能取顶尖模子相当的V3取R1,为大模子的锻炼斥地了新的道,让更多的企业和研究机构看到了降低成本、提高效率的可能性。若是蚂蚁集团的手艺获得验证及推广,意味着国产大模子可以或许寻找成本更低、效率更高的国产芯片或其他替代方案,以进一步降低对英伟达芯片的依赖。据中国基金报报道,有阐发指出,MoE模子的锻炼凡是依赖于如英伟达所售GPU这类高机能芯片,这使得锻炼成本对很多中小企业而言过于昂扬,了更普遍的使用。蚂蚁集团一曲正在努力于提高峻言语模子的锻炼效率,并冲破这一。该公司将方针定为“正在无需高端GPU的环境下扩展模子规模”。这一标的目的取英伟达的计谋各走各路。英伟达首席施行官黄仁勋曾暗示,对计较力的需求仍会持续增加,企业要实现更多营收将依赖更强大的芯片,而非通过更廉价的芯片来削减成本。他打制具备更多处置焦点、更高晶体管数量和更大内存容量的大型GPU的计谋。有阐发称,蚂蚁集团的研究论文凸显出中国AI范畴手艺立异和成长速度的加速。若是其研究失实,这将表白中国正在人工智能范畴正逐渐自从可控,出格是正在寻求成本更低、计较效率更高的模子架构来应对英伟达芯片出口的布景下。针对此事,3月24日蚂蚁集团回应称,蚂蚁针对分歧芯片持续调优,以降低AI使用成本,也会逐渐通过开源分享。