
统 AI 图像生成近 10 年的黄准梅州家具封边胶厂,次被拉下场当了教练。
我说的是FID(Frechet Inception Distance)。
这个指标从 2017 年沿用至今,直法法投入日常训练使用。
现在有人破了这个窘境——
来自 USC、CMU、CUHK 和 OpenAI 的全华阵容研究团队,提出了种叫 FD-loss 的法,把"统计的样本池"和"梯度的 batch "解耦。
依靠数万张图像组成的大容量缓存队列或指数移动平均机制,稳定完成分布估,仅针对当下小批量数据开展梯度回传。
仅凭这个 idea,长期受限的 FID 终于能够作为训练损失函数,参与模型的直接优化。
实验带来了多项出人意料的结果:
个已有的单步生成器,后训练后直接刷出 FID 0.72(ImageNet 256 × 256),而且理成本增加。
个训练了 50 步的多步扩散模型,被他们直接 repurposing 成 1 步生成器,需教师蒸馏、需对抗训练,果还能。
其中违背固有认知的发现在于,FID 数值优的模型,视觉观感未出众。依托 DINOv2、MAE、SigLIP 等前沿视觉表征训练的模型,FID 表现不如基于 Inception 架构优化的版本,但画面物体结构完整与细节度都会明显好。
业内长期扎堆优化 FID 分数,可这项沿用近十年的评价标准早已达到能瓶颈,甚至会引模型走入错误的优化向。
对 6 种表征空间的归化弗雷歇特距离(Fr é chet Distance,FD)比值取平均,得到鲁棒的综指标 FDrk。
按照这套新标准测,真实验证集基准数值为 1.0,现阶段顶生成模型的数值依旧达 1.89。
这足以说明 ImageNet 图像生成域,距离技术成熟还有很远的距离。
解耦统计量与梯度计
FID 是所有生成模型能测评的核心评判标准。
这个歌值越小,意味着生成图越真实、分布越接近真实。
它的计式是把真实图和生成图用 Inception-v3 提特征,各个斯分布,再求两个分布之间的距离。
不过过去,FID 只能当评测指标。
因为测次 FID 需要 50000 张图片的统计数据,而 GPU 每步训练能塞下的 batch 撑死也就 1024 张。
如果强行把 5 万样本全部参与反向传播,显存多半当场爆炸。
新研究的破局思路是"解耦"梅州家具封边胶厂。
简单来说,研究团队用数万张图组成的大窗口(队列或 EMA)稳定估真实与生成分布的均值、协差,保证 FD 计准确;梯度只回传当前小批量数据,不增加训练力负担。
研究者设计了两种工程实现。
种叫队列法(Queue)。
这种法维护个大特征队列(比如 5 万条),每次生成新 batch 就 enqueue,同时把老的 batch 踢出去。
FD 时,用整个队列的均值和协差;反向传播时,只给当前这 1024 条特征开梯度流,历史特征不参与梯度回传,保证统计稳健的同时不增加训练开销。
二种叫 EMA 法。
这种法干脆不存储任何特征数据,仅通过指数移动平均实时新生成样本特征的阶矩与二阶矩,每步使用当前批次的统计量平滑新全局均值与协差估计,梯度同样只作用于当前批次。
这种式需占用大量显存,统计结果平滑稳定,还能轻松适配多表征空间联优化,在实验中表现优,也成为论文默认的实现案。
为了验证这套解耦机制是否真的有,研究者在小的 pMF-B/16(118M)上做了两组消融实验。
(注:论文在实验中使用了明确的模型规模分,其中 B 代表 Base 小模型,参数规模约 89M 到 131M。)
组对比队列长度。
不用队列(N=0)时,FID 反而从 3.31 劣化到 3.84。
队列加到 5 万时,FID 骤降至 0.89;但狂堆到 50 万后,因历史特征严重 stale,FDr6 直接崩回 17.67。
二组对比 EMA 衰减率。
β =0.999 时,FID 刷到 0.81,比队列版优,且显著好于过短的 0.9(0.98)和过长的 0.9999(0.98)。
因此后续所有实验——论 pixel/latent 空间、多步转单步、还是 2.5B 参数的文本模型——均默认采用 EMA 案。
三个"反常识"的实验发现
新提出的 FD-loss 本质上是个后训练的分布对齐目标。
研究者从已经训练好的生成器出发,只用 FD-loss 做轻量微调。
真实图像只在离线阶段出现次——预先把训练集的均值和协差好存盘,之后模型再也不见真图,只对着自己生成的样本做自我修正。
这意味着它不需要修改原有架构,不需要从头训练,也不需要教师蒸馏或对抗学习,像插件样直接嵌入现有流程。
而且论像素空间还是隐空间、单步还是多步模型梅州家具封边胶厂,都能即插即用。
奥力斯 万能胶生产厂家 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
有了这个轻量框架,研究团队才得以系统地测试当 FID 真的变成损失函数,生成模型会发生什么。
FD-loss 带来了三个重要的实验发现。
发现,FD-loss 让单步生成模型次实现画质与速度的新度。
研究者拿了个已经训练好的单步生成器 pMF-H,直接上 FD-loss 微调 100 轮。
结果在 ImageNet 256 × 256 上,FID 从 2.29 干到了 0.77,同时依然保持 1-NFE(单步生成)。
这分数大幅越过往多步扩散模型的好水平,破了 "质量须多步、单步只能低画质" 的固有枷锁。
换句话说,理成本分钱没多花,画质直接跃升。
同样的操作放到 latent-space 的 iMF-XL 上,FID 也从 1.82 压到 0.76。
关键的是,这种提升不是刷分。在论文图 4 的定对比里,保温护角专用胶后训练的鹦鹉羽毛分明,雪豹的斑点也清晰。
发现二,FD-loss 可以直接将成熟的多步扩散模型改造为能单步生成器。
研究者把原本训练来跑 50 步的多步模型 JiT-L,强行拉到单步模式,也就是直接输入纯噪声,模型只跑次,输出就当终图像。
结果就是 FID 直接崩到 291.59,画面糊成锅粥。
然后,他们什么都不改,就用 FD-loss 继续微调这个的单步模式。
整个过程需教师蒸馏,需对抗训练,需逐样本监督信号。
50 轮后,FID 从 291 骤降到 0.77,生成质量与原多步模型相当甚至优,而且理速度提升数十倍。
发现三,FID 低的,未是好的。
这也是该试验具行业反思价值的点。
当研究者把 FD-loss 放到不同的表征空间里优化时,事情变得诡异起来(惊恐 .jpg)。
实验清晰表明,FID 低的模型梅州家具封边胶厂,在人眼主观评价中并非优。
基于 Inception 特征优化的模型能获得低 FID,却在物体结构、细节纹理、整体感知上弱于使用 DINOv2、MAE、SigLIP 等现代视觉表征训练的模型。
后者 FID 数值,但人眼看锐利、物体结构完整,视觉质量显著优。
这说明长期被奉为准的 FID 可能会误研究向……
团队提出新标准
那么,如果 FID 已经靠不住了,我们拿什么来相信生成模型的进步?
研究团队提出跨 6 种表征空间的归化平均指标 FDrk。
该指标通过对 Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP 共 6 种不同维度的表征空间计归化 FD 比值并取平均,得到综评估结果 FDr6。
按照这标准,真实验证集的基准值为 1.0,而当前强生成模型的 FDr6 仍达 1.89,直观揭示 ImageNet 生成任务远未被解决。
此外,在人类盲选偏好实验中,即便优的 pMF-H 模型,得票率也只有 37.4,真实图片依旧以 62.6 的胜率占优。
值得提的是,FD ‑ loss 具备低的使用门槛与强的泛化能力,可作为轻量化后训练插件直接嵌入现有训练流程,需从搭建模型,也不依赖复杂的训练策略与工程调优。
该法同时兼容像素空间与隐空间生成模型,适配单步生成器与多步扩散模型,支持类别条件生成与文生图等多种任务模式。
在整个优化过程中,FD ‑ loss 需修改原有主干网络结构,不引入复杂的架构改动和从头训练的巨大开销,依托队列或 EMA 统计新即可稳定收敛,具备优秀的复现与落地可行。
凭借简洁通用的设计,它大幅降低了质量速生成模型的工程实现门槛,让各类生成架构都能快速获得显著的质量提升。
低成本、回报,这正是 FD-loss 之于工业界的诱惑力所在。
团队介绍
公开信息显示,五位作者全部是华人背景。
作 Jiawei Yang,USC 计机系博士生,师从 Yue Wang 教授,目前的研究聚焦于以视觉为中心的多模态模型的统生成与理解。
他硕士毕业于 UCLA,曾获 NVIDIA Graduate Fellowship。
Zhengyang Geng 本科毕业于四川大学计金融业,现为 CMU 计机科学博士生,师为 Zico Kolter。
他长期注单步生成、动态系统与模型化,是 MeanFlow、pMF 等系列工作核心作者。
他的个人主页写道"与 Kaiming He 有紧密作",两人曾连续作多篇单步生成域核心论文。
Xuan Ju 是香港中文大学博士生,师从徐强教授,主攻图像与生成、多模态模型。
她在 ICCV、SIGGRAP 等顶会发表多篇成果。
Yonglong Tian 博士毕业于 MIT 计机科学业,现为 OpenAI 研究员。
他是监督对比学习 SupContrast 等表征学习标志工作的作者,曾任职于 Google DeepMind。
通讯作者 Yue Wang,USC 助理教授,同时兼任英伟达研究科学。
他本科毕业于浙江大学,硕士毕业于 UCSD,博士毕业于 MIT,研究横跨 3D 视觉、生成模型与机器人。
论文 arXiv:
https://arxiv.org/abs/2604.28190
键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � AI 正在从少数人的工具,变成所有人的日常。
今年5 月 20 日,我们将在北京金茂万丽酒店举办年度的 AIGC 产业峰会。
波嘉宾阵容已公布!昆仑万维汉、智谱吴玮杰、EverMind 邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund 张璐、香港大学黄、MarsWave 冯雷都来了,� �了解详情
邀请你和我们起,不再只是讨论 AI 的未来,而是现在就用起来。� �
键关注 � � 点亮星标
科技前沿进展每日见
相关词条:离心玻璃棉 塑料挤出机 钢绞线厂家 铝皮保温 pvc管道管件胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》梅州家具封边胶厂,以此来变相勒索商家索要赔偿的违法恶意行为。
