
允中 发自 凹非寺晋城泡沫板胶
量子位 | 公众号 QbitAI
AI生成张图片,你愿意等多久?
在主流扩散模型还在迭代中反复“磨叽”、让用户盯着进度条发呆时,阿里智能引擎团队直接把进度条“拉爆”了——
5秒钟,到手4张2K清大图。
针对Qwen新开源模型,将SOTA压缩水平从80-100步前向计,骤降至2步(Step),速度提升整整40倍。
这意味着,此前像Qwen-Image这样需要近分钟才能吐出来的张图片,现在真的成了“眨眼之间”。
目前,团队已将相应的Checkpoint发布至HuggingFace和ModelScope平台,欢迎开发者下载体验:
HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-StepsModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps同时,该模型已经集成到呜哩AI平台上(https://www.wuli.art)支持调用。
上述这种近乎“物理外挂”般的蒸馏案,究竟是怎么做到的?起来看。
传统轨迹蒸馏的“细节困境”早期的蒸馏案[1,2],往往可以被归纳为轨迹蒸馏(Trajectory Distillation)。
具体来看,其本身主要思想是希望蒸馏后模型(student model)能够模仿原模型(teacher model)在多步生成的路径:
Progressive Distillation:student model需要直接对齐teacher model多次迭代后的输出;Consistency Distillation:student model需要保证在teacher model的去噪轨迹上,输出相同的结果。但在实践中,这类法很难在低迭代步数下实现质量生成。突出的问题是生成图像模糊晋城泡沫板胶,这现象在近期研究[3]中也得到了验证:
问题根源在于约束式:轨迹蒸馏直接对student model的生成样本x_{student}做约束,使其在特定距离度量下对齐teacher预测出的质量输出x_{teacher},具体可以表达为:
其中$f(cdot)$是特定的距离函数,x_{teacher}是teacher经过多次去噪以后得到的输出。
可以看出,这Loss对所有图像patch视同仁,对于些特别细节的部分(如文字、人物五官)因占比低而学习不充分,student模型的细节常出现明显扭曲。
从样本空间到概率空间,直接降低缺陷样本生成概率近期,基于概率空间的蒸馏案,在较少步数场景(4~8步)获得了巨大的成功,基本解决了上述的细节丢失问题。
其中有影响力的工作之是DMD2法,这里具体的法案可以参考原论文[4]。
DMD2将约束从样本空间转换到了概率空间,其Loss设计为:
这是典型的Reverse-KL的蒸馏Loss,其本身有个显著的特:
当p_{teacher}(x_0)to 0,如果p_{student}(x_0) > 0,那就会有Loss to +infty。
这意味着:对于student model生成的每张图片,如果它不符真实图片分布(p_{teacher}(x_0)to 0),就会致Loss爆炸。
因此,DMD2这类法的本质思想是——不直接告诉student“应该模仿什么”,而是让student自己生成图片晋城泡沫板胶,然后让teacher model指“哪里不对”。
这种Reverse-KL Loss的设计,可以显著提升生成图片的细节和理,已经成为当下扩散步数蒸馏的主要策略。
热启动缓解分布退化尽管Reverse-KL可以显著降低不理样本的生成概率,其本身也存在着严重的mode-collapse和分布过于锐化的问题[5]。
具体表现在多样降低,饱和度增加,形体增加等问题上。这些问题在2步蒸馏的设定下变得尤为突出。
为了缓解分布退化问题,常见做法是给模型个理的初始化[6]。在这里该团队使用PCM[7]蒸馏进行模型热启动。
实验表明,热启动后的模型的形体扭曲问题得到明显。
△左图为直接dmd训练,右图为经过PCM热启动后的2步模型,PVC管道管件粘结胶好的初始化可以降低不理构图
对抗学习引入真实数据先验如上所述,DMD2本质上是“学生生成—>教师指”,蒸馏过程不依赖真实数据,这种做法有优有劣:
优势:大提升案普适(质量真实数据难获取);局限:设定了上限——student永远学习teacher的生成分布,法越teacher。同时由于loss设计的问题,DMD2蒸馏在质量细节纹理(如苔藓、动物毛发等)上生成的果,往往差强人意,如下图所示。
△左图为Z-Image 50步生成,右图为Z-Image-Turbo 8步生成,在苔藓细节纹理上DMD2不够细腻
奥力斯 PVC管道管件粘结胶价格 联系人:王经理 手机:18231788377(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区/p>
为了增强2步student model在细节上的表现能力,阿里智能引擎团队引入了对抗学习(GAN)来进步提升监督果。
GAN的Loss可以拆解为:
生成Loss(让生成图骗过判别器):晋城泡沫板胶
判别Loss(区分真假图):
这里x_0是student生成的图片,x_{real}是训练集中引入的真实数据,D(cdot)是判别器根据输入样本判断其为真实数据的概率。
简单来说,对抗训练面需要判别器尽可能判定student model生成的图片为假,另面需要student model尽可能欺骗判别器。
为了提升对抗训练的稳定和果,该团队做了如下改进:
真实数据混策略:按固定比例混质量真实数据和teacher生成图,提升泛化度和训练稳定;特征提取器引入:使用额外的DINO模型作为feature extractor,提供鲁棒的特征表示;Loss权重调整:增加对抗训练在loss中的占比。经实验验证,增加对抗训练后,student model的画面质感和细节表现发生显著提升:
△增加GAN显著提升画面真实和细节
从应用果出发,细节决定成败少步数扩散生成直是个重要的向。
然而,单法案受限于其本身的原理设计,往往不尽如人意。
阿里巴巴智能引擎团队正是从落地果出发,逐个发现并分析蒸馏带来的果问题(如扭曲、纹理确实),并针对解决,才能使得后的2步生成模型,终达到工业场景可落地的水准。
然而,尽管在大多数场景下Wuli-Qwen-Image-Turbo能够和原模型比肩;但在些复杂场景下,受限于去噪步数,仍存在可改进空间。团队在后续的release中将会持续发布速度快、果好的生成模型。
接下来,他们将持续出,并迭代多扩散加速技术,并开源模型权重。
而以上这些突破的背后,离不开他们长期以来的厚积淀——
作为阿里AI工程系统的建设者与维护者,团队聚焦于大模型全链路工程能力建设,持续优化研发范式,注大模型训能优化、引擎平台、Agent应用平台等关键组件,致力于为阿里集团各业务提供稳定的AI工程基础设施。
智能引擎团队始终坚持开放共享的技术文化,此前已贡献了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL等在内的多项优秀开源项目。
未来,他们期待与开源社区共同成长,希望将的工程能力转化为触手可及的创作工具。
该团队所有技术后续都会同步在呜哩AI平台上线,论你是业设计师、内容创作者,还是AI好者,呜哩或许都能让你的创意即刻成像。
点击文末“阅读原文”,可前往呜哩官网体验!
参考文献:
[1] Progressive Distillation for Fast Sampling of Diffusion Models[2] Consistency Models[3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY[4] Improved Distribution Matching Distillation for Fast Image Synthesis[5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence[6] Transition Matching Distillation for Fast Video Generation[7] Phased Consistency Models相关词条:铝皮保温施工 隔热条设备 钢绞线 玻璃棉卷毡 保温护角专用胶