长江证券:Qwen3 Next开源助力AI降本增效 推理效率显著提升

<{$news["createtime"]|date_format:"%Y-%m-%d %H:%M"}>  财中社 张海宁 1.6w阅读 2025-09-15 10:07:04
9月15日,长江证券发布软件与服务行业AI产业跟踪报告。...

9月15日,长江证券发布软件与服务行业AI产业跟踪报告。

9月12日,阿里发布了下一代基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型。

Qwen3-Next更新模型结构,模型长上下文和大规模总参数下的训练和推理效率进一步提升。此次Qwen3-Next进行了一系列模型更新,包括1)混合注意力机制:由于单纯使用线性注意力或标准注意力均存在局限,Qwen3-Next引入了GatedDeltaNet,并采用3:1的混合策略(即75%层使用GatedDeltaNet,25%层保留标准注意力),从而兼顾性能与效率;2)高稀疏度MoE结构:Qwen3-Next采用高稀疏度的MoE架构,总参数量达800亿,但每次推理仅激活约30亿参数,同时扩展到512个总专家,并采用10路由专家加1共享专家的组合设计,在保证性能的前提下最大化资源利用率;3)稳定性优化:Qwen3-Next采用了Zero-CenteredRMSNorm,同时对normweight施加weightdecay,以避免权重无界增长,并初始化时归一化了MoErouter的参数,从而保证了模型各部分的数值稳定;4)多token预测机制:Qwen3-Next引入了原生Multi-TokenPrediction(MTP)机制,从而得到了SpeculativeDecoding接受率较高的MTP模块,并提升了主干本身的综合性能。基于这些改进,阿里Qwen团队训练了Qwen3-Next-80B-A3B-Base模型,该模型拥有800亿参数仅激活30亿参数。该Base模型实现了与Qwen3-32Bdense模型相近甚至略好的性能,而训练它所需的GPUHours不到Qwen3-30A-3B的80%,相比Qwen3-32B,仅需9.3%的GPU计算资源就能取得更优性能。同时Qwen3-Next在推理效率也大幅提升,在4ktokens的上下文长度下,吞吐量接近前者的7倍;当上下文长度超过32k时,吞吐提升更是达到10倍以上。

开源共建,Qwen3.5有望持续优化。此次,Qwen3-Next在模型架构上实现了重大突破,引入了注意力机制方面的多项创新,包括线性注意力和注意力门控机制,并在其MoE设计中进一步提升了稀疏性,并且该模型已在魔搭社区和HuggingFace开源。在开源策略下,开发者的使用门槛有望显著降低,从而加速技术的传播和应用,同时也助于构建一个更加开放、协作的社区,促进技术的持续创新。Qwen3-Next模型的发布或将进一步加速国产大模型在技术和性能上的突破。

Qwen3-Next开源发布,国产大模型持续突破。Qwen3-Next在模型架构上的重大突破展现出国产大模型的性能和技术正持续向领先水平演进,并有望在开源策略下持续加速。同时其在性能提升的同时进一步降低了训练成本,从而有望进一步加速国产AI应用落地进程,并推动算力需求的爆发。

重要提示:本文著作权归财中社所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至editor@caizhongshe.cn。

相关推荐

最新文章推荐

长按保存图片