分享好友 资讯首页 资讯分类 切换频道

谁在闷头做中国的Mythos 速度暴涨4倍

2026-06-21 01:52110鼎巢网agent.csdn.net/6a30b91b662f9a5

别再只盯着“AO”两家的新模型大战了!谷歌刚刚发布了一款名为DiffusionGemma的新模型,这款模型将生成图片的扩散模型应用到了文字生成上,并实现了4倍加速。

DiffusionGemma抛弃了传统的自回归模式,即逐个token生成的方式,而是采用类似“印刷机”的工作方式。它一次铺开256个token的“画布”,从随机噪声出发,通过多轮去噪,使整段文字同时浮现。这种新模式在生成速度方面表现出色:单块H100上每秒可生成1000多个tokens,在消费级RTX 5090上也能达到700多个tokens,比同规格自回归模型快了4倍。此外,这个26B参数的MoE模型在推理时只需激活3.8B参数,量化后仅需18GB显存即可运行,一张4090显卡就能本地跑。

目前,DiffusionGemma采用了允许商用的Apache 2.0开源协议,权重可在Hugging Face直接下载。

DiffusionGemma的最大优势在于其生成速度。在同一块H100上(fp8,batch size=1),DiffusionGemma的速度达到了1000+ tokens/s,而标准自回归的Gemma 4 26B A4B加上MTP加速也只有300+ tokens/s,速度差距近4倍。

打赏 0
伊朗队的世界杯有多难 跨境参赛风波不断
当地时间6月15日,伊朗队历经签证受阻、驻地变更、跨境参赛等困难后,终于站上了2026年美加墨世界杯的赛场。球队头号球星塔雷米表示,首次落地美国让全队感到压抑和紧张

0评论2026-06-2111