无需练习，这个新样子告终了禀赋图像尺寸、差别率自正在

李洋 2024-04-09 00:00 638

"无需练习，这个新样子告终了禀赋图像尺寸、差别率自正在,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。新闻的写作风格流畅，文笔优秀，让人容易理解。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作无需训练，这个新方法达成了生成图像尺寸、分辨率自由机器之心·2024-04-08 15:20关注FouriScale 在利用(Use)预训练扩散模型生成高分辨率图像方面取得了显著提升。

近日，来自香港中文大学(University) - 商汤科技(Technology)联合实验室等机构的研究者们提出了FouriScale，该方法在利用(Use)预训练扩散模型生成高分辨率图像方面取得了显著提升。

近期，扩散模型凭借其出色的性能已超越 GAN 和自回归模型，成为生成式模型的主流选择。基于扩散模型的文本到图像生成模型（如 SD、SDXL、Midjourney 和 Imagen）展现了生成高质量图像的惊人能力。通常，这些模型在特定分辨率下进行(Carry Out)训练，以确保在现有硬件上达成高效处理和稳定的模型训练。

图 1 : 采用不同方法在 SDXL 1.0 下生成 2048×2048 图像的对比。[1]

然而，当这些预训练的扩散模型在超出训练分辨率时生成图像，通常会出现模式重复和严重的人工伪影（artifacts）问题，如图 1 最左侧所示。

为了解决这一问题，来自香港中文大学(University) - 商汤科技(Technology)联合实验室等机构的研究者们在一篇论文中深入研究了扩散模型中常用的 UNet 结构的卷积层，并从频域分析的角度提出了 FouriScale, 如图 2 所示。

图 2 FouriScale 的流程（橙色线）示意图，目的是保证跨分辨率的一致性。

FouriScale 通过引入空洞卷积操作和低通滤波操作来替换预训练扩散模型中的原始卷积层，旨在达成不同分辨率下的结构和尺度一致性。配合「填充然后裁剪」策略，该方法能够灵活生成不同尺寸和长宽比的图像。此外，借助 FouriScale 作为指导，该方法在生成任意尺寸的高分辨率图像时，能够保证完整的图像结构和卓越的图像质量。FouriScale 无需任何离线预计算，具有良好的兼容性和可扩展性。

定量和定性实验结果(Result)表明，FouriScale 在利用(Use)预训练扩散模型生成高分辨率图像方面取得了显著提升。

论文地址：https://arxiv.org/abs/2403.12963开源代码：https://github.com/LeonHLJ/FouriScale论文标题：FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis方法介绍1、空洞卷积保证跨分辨率下的结构一致性

扩散模型的去噪网站通常是在特定分辨率的图像可能潜在空间上训练的，这个网站通常采用 U-Net 结构。作者的目标是在推理阶段使用去噪网站的参数生成分辨率更高的图像，而无需重新训练。为了避免推理分辨率下的结构失真，作者尝试在默认分辨率和高分辨率之间建立结构一致性。对于 U-Net 中的卷积层，结构一致性可表述为：

其中 k 是原本的卷积核，k' 是为更大分辨率定制的新卷积核。根据空间下采样的频域表示，如下：

可以将公式（3）写为：

这个公式表明了理想(Ideal)卷积核 k' 的傅里叶频谱应该是由 s×s 个卷积核 k 的傅里叶频谱拼接而成的。换句话说，k' 的傅里叶频谱应该有周期性重复，这个重复模式是 k 的傅里叶频谱。

广泛使用的空洞卷积正好满足这个要求。空洞卷积的频域周期性可以通过下式表示：

当利用(Use)预训练扩散模型（训练分辨率为（h,w））生成 (H,W) 的高分辨率图像时，空洞卷积的参数使用原始卷积核，扩张因子为 (H/h, W/w)，是理想(Ideal)的卷积核 k'。

2、低通滤波保证跨分辨率下的尺度一致性

然而，只利用(Use)空洞卷积无法完美地解决问题，如图 3 左上角所示，只使用空洞卷积仍然在细节上存在模式重复的现象。作者认为这是因为空间下采样的频率混叠现象改变了频域分量，导致了不同分辨率下频域分布的差异。为了保证跨分辨率下的尺度一致性，他们(They)引入了低通滤波来过滤掉高频分量，以去除空间下采样后的频率混叠问题。从图 3 右侧对比曲线可以看到，在使用低通滤波后，高低分辨率下的频率分布更加接近，从而保证了尺度一致。从图 3 左下角图看到，在使用低通滤波后，细节的模式重复现象有明显地改善。

图 3 (a) 是否采用低通滤波的视觉对比。（b）不采用低通滤波的傅立叶相对对数幅值曲线。(c) 采用低通滤波的傅立叶相对对数幅值曲线。

3、适应于任意尺寸的图像生成

以上的方式只能适应于生成分辨率与默认推理分辨率的长宽比一致时，为了使 FouriScale 适应于任意尺寸的图像生成，作者采用了一种「填充然后裁剪」的方式，方法 1 中展示了结合了该策略的 FouriScale 的伪代码.

4、FouriScale 引导

由于 FouriScale 中的频域操作，不可避免的使生成的图像出现了细节缺失与不期望的伪影问题。为了解决这一问题，如图 4，作者提出了将 FouriScale 作为引导的方式。具体来说，在原本的条件生成估计以及无条件生成估计的基础上，他们(They)引入一个额外的条件生成估计。这个额外的条件生成估计的生成过程同样采用空洞卷积，但是使用更加温和的低通滤波，从而保证细节不丢失。同时他们(They)将利用(Use) FouriScale 输出的条件生成估计中的注意力分数替换掉这一额外的条件生成估计中的注意力分数，由于注意力分数包含着生成图像中的结构信息，这一操作将 FouriScale 中正确的图像结构信息引入，同时保证了图像质量。

图 4 (a) FouriScale 引导示意图。（b）不采用 FouriScale 作为引导的生成图像，有明显的伪影和细节错误。(c) 采用 FouriScale 作为引导的生成图像。

实验1. 定量试验结果(Result)

作者遵循 [1] 的方法，测试了三个文生图模型（包括 SD 1.5，SD 2.1 和 SDXL 1.0），生成四种更高分辨率的图像。测试的分辨率是它们(They)各自训练分辨率的 4 倍、6.25 倍、8 倍和 16 倍像素数量。在 Laion-5B 上随机采样 30000/10000 个图文对测试的结果(Result)如表 1 所示：

表 1 不同的无需训练方法的定量结果(Result)对比

他们(They)的方法在各个预训练模型，不同分辨率下都获得了最优的结果(Result)。

2. 定性试验结果(Result)

如图 5 所示，他们(They)的方法在各个预训练模型，不同分辨率下都能够保证图像生成质量与一致的结构。

图 5 不同的无需训练方法的生成图像对比

结论

本文提出了 FouriScale 用于增强预训练扩散模型生成高分辨率图像的能力。FouriScale 从频域分析出来，通过空洞卷积和低通滤波操作改善了不同分辨率下的结构和尺度一致性，解决了重复模式和结构失真等关键挑战。采用「填充然后裁剪」策略并利用(Use) FouriScale 作为指导，增强了文本到图像生成的灵活性和生成质量，同时适应了不同的长宽比生成。定量和定性的实验对比表明，FouriScale 能够在不同预训练模型，不同分辨率下都能够保证更高的图像生成质量。

[1] He Y, Yang S, Chen H, et al. Scalecrafter: Tuning-free higher-resolution visual generation with diffusion models[C]//The Twelfth International Conference on Learning Representations. 2023.

本文来自微信公众号“机器之心”（ID:almosthuman2014），36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+13

好文章，需要你的鼓励

机器之心特邀作者0收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章大模型融合，最新「进化算法」全自动组合开源模型，刷榜多项基准测试斯坦福团队新作：喊话就能指导机器人，任务成功(Success)率暴增，网友：特斯拉搞快点重磅：轰动全球的“室温超导”论文作者，被实锤数据造假、抄袭等多项不当行为，调查报告长达124页Windows 10 明年退役后，微软：要想继续安危使用，每台 PC 起步价为 441 元不造车的苹果很可能要做家用机器人了Llama提速500%，谷歌美女程序员手搓矩阵乘法内核死宅更容易变傻？？Science正经研究：大脑缺氧竟是常态，但靠运动可以改善和神经科学家聊聊：究竟是什么让人们快乐(Happiness)？带货四年后，罗永浩将携新品重回科技(Technology)圈最新文章推荐特斯拉端到端一骑绝尘，祖国智驾能否与之抗衡？第二个Aesop？传欧莱雅考虑投资中东高奢香水Amouage大规模以旧换新开启，如何撬动万亿家居(Home)市场由盈转亏：中交地产净利润连续下滑AI的iPhone时代已经开启？阿尔特曼瞄准AI硬件，一张图看懂其百亿投资版图详解地平线：最大的祖国自动驾驶公司，去年营收 16 亿法国国粹，怎么就成了安徽县城土特产？马斯克转行跑“滴滴”，放弃特斯拉10万元车型？人均一件的国民新顶流，真是智商税吗？| 2024防晒衣选购指南训出GPT-5短缺20万亿token，OpenAI被曝计划建「数据市场」

机器之心特邀作者

专业的人工智能媒体和产业服务平台

发表文章498篇最近内容无需训练，这个新方法达成了生成图像尺寸、分辨率自由39分钟前超越GPT-4，斯坦福团队电话可跑的大模型火了，一夜下载量超2k昨天(Yesterday)谷歌DeepMind发布Gecko：专攻检索，与大7倍模型相抗衡昨天(Yesterday)阅读更多内容，狠戳这里下一篇我，靠疗愈他人，过上了想要的人生

「在工作中，助人，也自助」

41分钟前

热门标签窜货轻燕燕窝哈根达斯冰激凌湾仔码头水饺大金空调假面吴锋智能酒店陈海滨围住神经猫完全竞争垄断优势理论理论经济(Economy)学经济(Economy)学派门格尔精英文化(Culture)精英培育余罪韦小宝网页游戏(Game)产品差异化战略张燕生力拓集团zuul徐璐动态模型迈巴赫奔驰gls suvs级迈巴赫gls关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴