扩散模型在底层视觉任务中的原理、应用与未来展望
1. 扩散模型在底层视觉任务中的全面综述原理、应用与未来如果你正在从事图像处理、计算机视觉或者生成式AI相关的工作那么“扩散模型”这个词在过去几年里一定频繁地出现在你的视野中。从最初的图像生成艺术到如今在图像修复、超分辨率、去模糊等底层视觉任务中大放异彩扩散模型已经从一个前沿的研究概念演变为解决实际图像质量问题的强大工具。我最初接触扩散模型时它给我的感觉是“优雅但缓慢”——原理清晰但生成一张图动辄需要上千步迭代实在让人望而却步。然而随着一系列加速采样技术和条件控制方法的出现这个“慢工出细活”的模型家族正在底层视觉这个对质量和效率都有严苛要求的领域展现出惊人的潜力。底层视觉任务简单来说就是让计算机“看清”和“修复”世界。无论是将一张模糊的照片变清晰超分辨率还是去除照片中的雨雪雾霾去雨/去雾亦或是填补图像中缺失的部分修复其核心目标都是从退化的、低质量的观测数据中恢复出高质量的、符合人类视觉感知的图像。传统的基于卷积神经网络的方法虽然在PSNR、SSIM等指标上表现出色但常常因为过度平滑而丢失真实的纹理细节导致结果“塑料感”过重。生成对抗网络虽然能生成逼真细节但其训练不稳定、模式崩溃的问题也一直困扰着研究者。扩散模型的出现恰好提供了一条兼具生成质量高和训练稳定性好的新路径。这篇文章我将结合自己跟进相关研究和复现实验的经验为你系统性地拆解扩散模型在底层视觉任务中的应用全景。我们不仅会深入其背后的数学原理理解它为何如此有效更会聚焦于它在超分、去模糊、修复、图像融合乃至医学影像、遥感等具体任务中的“实战”技巧与方案选型。最后我们还会探讨当前方法的局限性与未来可能突破的方向。无论你是刚入门的新手还是希望寻找新思路的资深从业者相信这篇超过五千字的深度解析都能为你带来启发。1.1 核心原理从加噪到去噪的优雅舞蹈要理解扩散模型为何能在底层视觉中奏效我们必须先吃透它的核心思想。你可以把它想象成一场精心编排的“破坏与重建”的舞蹈。前向过程负责“破坏”它通过一个固定的、逐步加噪的马尔可夫链将一张清晰的原始图像x0经过T个时间步彻底破坏成一个几乎纯高斯噪声的图像xT。这个过程是确定的其数学表达简洁优美q(xt|xt-1) N(xt; √(1-βt) * xt-1, βt * I)其中βt是一个预先定义好的、随时间t递增的噪声调度表。这个公式意味着每一步都在当前图像上添加一点点高斯噪声。一个更实用的性质是我们可以直接从x0计算出任意时刻t的加噪图像xtxt √(ᾱt) * x0 √(1-ᾱt) * ε其中ε ~ N(0, I)ᾱt Π(1-βs)。这个性质至关重要它意味着我们可以在训练时随机采样时间步t和噪声ε直接构造出加噪样本xt而无需一步步模拟整个前向链这极大地提升了训练效率。那么模型学的是什么呢模型学习的正是反向过程即“重建”之舞。它需要学会从纯噪声xT开始一步步“猜出”并移除之前添加的噪声最终变回清晰的图像x0。这个反向过程也被建模为一个马尔可夫链但其中的转移概率pθ(xt-1|xt)的参数θ是需要通过神经网络学习的。最初的DDPM论文指出直接预测去噪后的图像x0或者预测均值μ都是困难的一个更稳定且有效的做法是预测每一步所添加的噪声ε。因此扩散模型的核心训练目标变得异常简单L E[||ε - εθ(xt, t)||²]其中εθ就是一个以加噪图像xt和时间步t为输入试图预测噪声ε的神经网络通常是一个U-Net。通过最小化这个简单的均方误差损失模型逐渐掌握了从任意噪声水平xt中分离出“信号”与“噪声”的能力。为什么这种“先破坏后重建”的方式如此强大我的理解是它将一个复杂的、端到端的图像生成/修复问题分解成了T个相对简单的去噪子问题。每一个子问题在特定噪声水平下去噪都比原始问题更容易学习。这种“分而治之”的策略结合稳定的均方误差目标使得扩散模型避免了GAN中常见的模式崩溃和训练震荡问题能够稳定地学习到复杂的数据分布。注意这里有一个关键细节即噪声调度表{βt}的设计。它通常从很小的值如0.0001线性或余弦增长到接近1的值如0.02。前期的βt小意味着添加的噪声少模型主要学习修复细微的失真后期的βt大意味着添加的噪声多模型需要学习从近乎纯噪声中“构想”出图像的整体结构和内容。一个好的调度表需要在细节修复和结构生成之间取得平衡。1.2 三大理论框架的统一视角在具体实践中扩散模型家族主要有三位“主角”去噪扩散概率模型、噪声条件分数网络和随机微分方程。它们看似不同实则血脉相连。1.2.1 去噪扩散概率模型这是我们上面讨论的“标准版”思路最直观。它将前向和反向过程都定义为离散时间的马尔可夫链。其优势在于框架清晰易于实现和理解并且非常容易引入条件控制例如将低分辨率图像作为条件输入引导生成对应的高分辨率图像。目前绝大多数底层视觉应用都基于DDPM或其变体。1.2.2 噪声条件分数网络NCSN从一个不同的角度切入学习数据分布的对数概率密度的梯度即“分数”。这个分数指向了数据概率密度增长最快的方向。生成时我们从随机噪声开始沿着分数指引的方向通过朗之万动力学逐步“攀登”到数据分布的高概率区域。其训练目标是匹配分数函数L E[||sθ(xt, t) - ∇xt log p(xt|x0)||²]一个重要的理论联系是在DDPM中我们预测的噪声εθ与分数函数sθ只差一个缩放因子sθ(xt, t) -εθ(xt, t) / √(1-ᾱt)。这意味着两者在本质上等价。NCSN的贡献在于它提供了基于分数的、连续视角的理解并启发了更高效的采样器设计。1.2.3 随机微分方程SDE视角是NCSN的连续化推广。它将前向加噪过程看作一个连续时间的随机微分方程反向去噪过程则对应一个反向时间的SDE。这个框架最为宏大和优雅它将DDPM和NCSN统一为同一类SDE的两种不同离散化方案分别是方差保持SDE和方差爆炸SDE。SDE框架的理论威力在于它允许我们利用数值ODE/SDE求解器来设计更灵活、更快速的采样算法如DDIM将采样步数从成百上千步减少到几十甚至几步。1.2.4 与其他生成模型的对比理解扩散模型离不开将其放在生成模型的大家族中审视。对抗生成网络GAN通过生成器和判别器的对抗博弈来学习分布。其优势是采样速度极快单次前向传播能生成极其逼真的细节。但缺点也明显训练不稳定、模式崩溃、多样性不足。扩散模型则通过稳定的似然训练目标提供了更好的模式覆盖和训练稳定性代价是采样速度慢。变分自编码器VAE同样学习一个从数据到隐空间再重建的流程但其隐变量通常是压缩的、低维的。扩散模型的隐变量xt与数据同维度且前向过程是固定的、非学习的。有趣的是有工作将两者结合在VAE的压缩隐空间上进行扩散大幅提升了效率如Latent Diffusion Model。标准化流NF通过一系列可逆的、雅可比行列式易计算的双射变换将简单分布映射到复杂分布。它的采样也是快速的单次前向但网络结构设计受限于可逆性要求。扩散模型则没有这个限制可以自由使用更强大的网络架构如U-Net。实操心得对于底层视觉的入门实践我强烈建议从DDPM框架开始。它的代码实现资源最丰富社区支持最好原理也最易于调试。当你需要追求更快的推理速度时再深入研究基于SDE/ODE的加速采样技术如DDIM或潜在扩散模型。2. 扩散模型在自然图像处理中的任务拆解底层视觉任务种类繁多扩散模型的应用策略也因任务而异。我们可以从两个维度来梳理一是模型的训练方式监督学习 vs. 零样本学习二是应用目标通用图像恢复 vs. 特定任务。2.1 训练方式监督学习与零样本学习之争2.1.1 监督学习的扩散模型这类方法为特定的退化类型如高斯模糊、双三次下采样训练专门的模型。它们通常设计一个条件机制在反向去噪过程中将退化的低质量图像作为条件输入引导生成过程朝向与条件一致的高质量图像。代表工作SRDiff超分辨率、RePaint图像修复、WeatherDiffusion去雨去雾。优势由于是针对特定退化精心设计和训练的因此在对应任务上往往能取得当前最优的性能尤其是在处理复杂的、非线性的真实退化如真实雾霾、运动模糊时表现出色。劣势泛化能力差。一个为“高斯模糊”训练的模型很难处理好“运动模糊”。每遇到一种新的退化类型就需要收集新的配对数据并重新训练模型成本高昂。2.1.2 零样本学习的扩散模型这类方法是当前的研究热点。其核心思想是利用在大规模自然图像数据集如ImageNet上预训练好的、无条件的扩散模型作为强大的图像先验。在推理时通过某种方式将观测到的退化图像y例如模糊图像作为约束引导预训练模型的生成过程使其输出既符合扩散模型先验看起来像自然图像又满足数据一致性与观测y在退化域内一致。核心挑战如何将观测条件y有效地融入反向采样过程这通常需要利用贝叶斯规则p(x|y) ∝ p(y|x)p(x)。其中p(x)是扩散模型提供的先验p(y|x)是退化模型即观测图像是如何从清晰图像退化而来的。关键技术投影法在每一步去噪后将中间结果xt投影到满足观测y的流形上。例如对于超分辨率任务可以将xt下采样要求其结果与低分辨率输入y一致。DDRM、DDNM是这类方法的典型。梯度引导在每一步采样中不仅沿着扩散模型预测的分数方向先验梯度走还加上一个指向数据一致性区域的梯度项。这相当于在采样路径上增加了log p(y|x)的梯度约束。代表工作DDRM、DDNM、DiffPIR。它们通常被设计为“即插即用”的求解器只需提供退化算子H例如下采样矩阵、模糊核就能处理相应的逆问题。优势无需针对新任务重新训练泛化性强一套方法可解多种线性逆问题超分、去模糊、修复等。劣势严重依赖对退化过程的精确建模即已知H。对于未知的、复杂的真实世界退化盲复原性能会下降。同时由于需要多次调用庞大的预训练模型计算开销依然很大。注意事项选择监督还是零样本取决于你的应用场景。如果你的目标是解决一个定义明确、退化类型固定的工业问题如特定摄像头模组的去噪监督学习能给你最精准的结果。如果你的目标是开发一个通用的、能处理多种未知退化的图像修复工具那么零样本方法更有吸引力但你需要对其在复杂真实场景下的鲁棒性有心理预期。2.2 核心任务实战解析接下来我们深入到几个核心的底层视觉任务看看扩散模型是如何具体施展拳脚的。2.2.1 图像超分辨率超分辨率的目标是从低分辨率图像中恢复高分辨率细节。扩散模型在此任务上的最大贡献是解决了传统方法结果过于平滑、缺乏真实纹理的问题。SRDiff这是扩散模型在超分领域的开山之作之一。它使用一个预训练的低分辨率图像编码器来提取特征作为条件输入到噪声预测网络中。这种设计让模型能够学习从LR到HR的残差分布从而生成多样且逼真的高频细节。隐式扩散模型为了支持任意尺度的连续超分IDM引入了尺度自适应机制和隐式神经表示。它不再学习离散的放大倍数而是将尺度作为连续变量输入网络从而实现了分辨率无关的生成。StableSR与SUPIR这两项工作代表了当前的前沿思路——利用大规模预训练文生图扩散模型的先验。StableSR直接微调Stable Diffusion通过一个时间感知编码器将LR图像信息注入到SD的潜在空间中实现了对真实世界图像的盲超分。SUPIR则更进一步引入了多模态文本提示。用户可以通过文本描述如“一张清晰的猫的照片”来引导修复过程这对于严重退化或信息缺失的区域恢复尤为有效代表了可控、交互式图像修复的未来方向。实操技巧在复现或应用这些模型时一个常见的痛点是推理速度。ResShift等工作通过残差建模和精心设计的噪声调度将采样步数减少到几步之内。SinSR甚至通过知识蒸馏实现了单步采样。在实际项目中你需要在“质量”和“速度”之间做出权衡。对于离线处理或对质量要求极高的场景如艺术画作修复可以接受较慢的扩散模型对于实时或交互式应用则必须考虑加速方案或混合架构。2.2.2 图像去模糊去模糊要求从模糊图像中恢复出清晰边缘和纹理。扩散模型在此任务中的关键是如何有效利用模糊图像作为强条件。预测-精炼范式一些方法采用两阶段策略。第一阶段用一个确定性网络如CNN快速预测一个粗略的清晰图像。第二阶段用扩散模型对这个粗略结果进行“精炼”通过残差建模来补充细节和纠正伪影。这种组合兼顾了速度和质量。多尺度结构引导MSGD等方法认识到模糊在不同尺度上对图像的影响不同。它们将输入图像投影到多尺度表示并将这些多尺度特征作为隐式偏置注入到扩散模型的中间层从而更鲁棒地从目标条件分布中采样。事件相机去模糊这是一个非常有趣的方向。DiffEvent首次将扩散模型引入基于事件相机的去模糊。事件相机输出的是异步的亮度变化信号对高速运动不模糊。该工作构建了一个“事件-模糊残差退化”模型利用事件流提供伪逆引导增强了在未知和复杂动态模糊下的恢复能力。2.2.3 图像修复图像修复需要根据图像已知区域的内容合理生成缺失区域的内容。扩散模型的概率生成特性使其天生适合这种“开放式”生成任务。RePaint一个经典方法。它的策略是在反向采样过程中进行“重采样”。具体来说在每一步对已知区域未掩码部分用真实加噪数据替换对未知区域掩码部分用模型预测的去噪结果。通过多次迭代这种“替换-去噪”过程使得生成区域与已知区域在结构和纹理上自然衔接。空间扩散模型对于大块缺失区域SDM引入了马尔可夫随机场来建模像素间的空间依赖关系在估计缺失像素时充分考虑周围上下文从而生成了更连贯的内容。多模态引导最新的趋势是结合文本或参考图像进行引导。例如给定一张人像照片和“戴着墨镜”的文本提示模型可以更准确地在眼部区域生成合理的墨镜。这大大提升了修复的可控性和用户意图的满足度。2.2.4 低光照图像增强低光照增强任务中图像不仅暗还伴随着严重的噪声和颜色失真。扩散模型在此的挑战是如何在提亮的同时抑制噪声、保持颜色真实性。Retinex理论结合Reti-Diff是一个很好的范例。它基于Retinex理论将图像分解为照度分量和反射分量。先利用一个基于LDM的模块提取这两个分量的先验再用一个Retinex引导的Transformer进行分解和增强。这种将物理模型先验与扩散生成能力结合的方法取得了显著效果。多模态引导CFWD展示了结合CLIP的视觉-语言模型和傅里叶/小波变换的威力。CLIP提供语义级引导确保增强结果符合常识例如夜晚场景的合理亮度傅里叶/小波变换则专注于高频细节的恢复。这种多尺度、多模态的引导方式是提升模型在复杂真实场景下性能的有效途径。金字塔扩散模型PyDiff采用了一种渐进式生成策略在反向过程中逐步提高图像分辨率。这降低了高分辨率下直接扩散的计算负担同时保证了不同尺度上细节的一致性。2.2.5 图像融合图像融合旨在将来自不同传感器如红外与可见光的图像信息整合到一张图中以提升整体视觉质量或利于下游任务如目标检测。Dif-Fusion首个基于扩散模型的图像融合方法。它通过创建一个多通道数据分布在扩散过程中同时处理多源图像从而在红外-可见光融合任务中更好地保持了色彩保真度。DDFM将融合问题分解为一个利用图像生成先验的无条件DDPM和一个保持源图像跨模态信息的最大似然子问题。这种分解使得模型既能生成自然的外观又能忠实保留红外图像的热辐射信息和可见光图像的纹理细节。潜在空间融合LFDT-Fusion等工作将输入图像压缩到一个低分辨率潜在空间然后在该空间内进行扩散过程最后再解码回图像空间。这大大提升了处理高分辨率遥感或医学图像时的效率。3. 扩散模型在跨领域视觉任务中的扩展扩散模型的威力不仅限于自然图像其强大的分布学习和细节生成能力使其在医学影像、遥感和视频处理等专业领域也大放异彩。3.1 医学影像处理从重建到模态生成医学影像通常面临信噪比低、分辨率有限、采集时间长等问题。扩散模型在这里主要解决两大问题高质量重建和缺失模态生成。加速MRI重建MRI扫描耗时很长。通过部分采样K空间数据欠采样来加速但会导致图像出现混叠伪影。Chung等人提出的方法将预训练的分数模型作为先验在采样过程中施加数据一致性约束即重建图像的傅里叶变换需与采集的K空间数据在采样点上一致实现了高质量的快速MRI重建。有限角度CT重建为了减少患者辐射剂量CT可能只在有限角度下采集投影数据正弦图这会导致严重的条纹伪影。DOLCE方法将滤波反投影得到的粗糙CT图像作为条件输入到扩散模型中并在去噪迭代中通过近端映射强制其与采集的正弦图保持一致显著提升了重建质量。跨模态图像翻译在疾病诊断中结合CT看骨骼和MRI看软组织信息更有价值。但并非所有患者都同时具备两种影像。扩散模型可以学习从一种模态到另一种模态的映射。例如从MRI生成对应的伪CT图像。关键挑战在于处理模态间的巨大差异。FGDM等方法通过在频域进行引导在零样本设置下也能实现有效的跨机构、跨模态翻译。经验之谈在医学领域应用扩散模型数据一致性和物理约束是生命线。不能为了图像“看起来好看”而违背物理采集模型。任何生成或重建的结果都必须通过数据一致性模块来确保其与原始测量信号在物理上是相容的。否则生成的细节再逼真也可能是误导性的“幻觉”这在临床上是不可接受的。3.2 遥感数据处理应对高维与特殊噪声遥感图像具有分辨率高、尺寸大、通道多如高光谱以及受云层、斑点噪声干扰等特点。高光谱图像修复高光谱图像数据量大且易受噪声污染。DDS2M提出了一种自监督的扩散模型利用两个未训练的网络分别捕捉HSI的空间和光谱维度的内在结构信息仅使用退化的HSI就能学习其后验分布有效解决了数据饥饿问题。SAR图像去斑合成孔径雷达图像受乘性斑点噪声影响严重。传统方法在log域将其转化为加性噪声处理。基于扩散的方法则直接对去斑任务进行建模并采用基于块平移和平均的推理策略来适应任意分辨率的输入在保持边缘和结构的同时有效抑制了斑点。云层去除光学卫星图像常被云层遮挡。DDPM-CR等方法创新性地引入SAR数据作为辅助输入。SAR能穿透云层但其图像不易解释。通过融合SAR的穿透信息和光学图像的多尺度特征扩散模型能更可靠地恢复云层下的信息。3.3 视频处理攻克时序一致性难关将扩散模型从图像扩展到视频最大的挑战是保持帧间的时序一致性。简单的逐帧处理会导致闪烁和抖动。视频超分辨率一种有效策略是“膨胀”预训练的文生图扩散模型如Stable Diffusion的权重并通过插入基于注意力的时序适配器模块赋予其时间建模能力。SATeCo方法则冻结预训练参数只优化新引入的空间特征适应模块和时序特征对齐模块在保证空间保真度的同时增强了时序连贯性。视频修复与去雨/去雾Diff-TTA提出了一种针对视频的测试时自适应方法。它在训练时引入时序噪声模型来利用退化视频片段中的帧间相关信息。在推理时通过一个名为“扩散管状体自校准”的代理任务让模型能够实时适应未见过的天气条件而无需修改训练过程实现了视频的一体化恶劣天气去除。避坑指南视频扩散模型的计算和内存开销极大。在实践时除了使用潜在扩散模型降低维度还可以考虑采用滑动窗口、分层处理等策略。另外对于实时性要求高的应用目前纯扩散方案的负担仍然较重可以考虑采用“CNN/Transformer基础网络 扩散模型精炼”的混合架构。4. 实验评估、常见问题与未来方向4.1 主流数据集与评估指标要客观比较不同方法的优劣离不开标准的数据集和评估体系。常用数据集通用预训练ImageNet, CelebA-HQ。为扩散模型提供强大的通用图像先验。超分辨率DIV2K, Urban100。包含各种自然和人工场景的高质量图像对。去模糊GoPro, HIDE。提供真实世界动态模糊的视频帧和清晰帧对。去雾/去雨RESIDE, Rain800。模拟和真实采集的有雾/有雨图像及对应清晰图像。低光照增强LOL-v1, LOL-v2。包含真实拍摄的低光-正常光图像对。图像融合MSRS, M3FD。提供配准的红外与可见光图像对。医学影像FastMRI (MRI), C4KC-KiTS (CT)。提供欠采样的K空间数据或低剂量投影数据。评估指标评估需要从多个维度进行因为“好”的图像定义是多元的。指标类型代表指标衡量重点局限性基于失真的指标PSNR (峰值信噪比)像素级误差数值越高越好与人眼感知相关性弱对轻微偏移惩罚重SSIM (结构相似性)结构、亮度、对比度的相似度对纹理细节不敏感基于感知的指标LPIPS (学习感知图像块相似度)深度特征空间的差异越低越好更符合人眼主观感受FID (弗雷歇距离)生成图像与真实图像分布的距离需要大量样本计算反映整体分布任务特定指标MI (互信息用于融合)从源图像传递到融合图像的信息量Qabf (边缘信息保真度用于融合)边缘信息的保留程度人工评价MOS (平均意见得分)人类主观评分最直接成本高易受主观因素影响重要提示在底层视觉中感知-失真权衡是一个永恒的话题。基于CNN的方法通常在PSNR/SSIM上领先但图像平滑GAN和扩散模型在LPIPS/FID上更优图像更逼真但可能引入不存在的细节或改变内容。没有绝对的赢家选择指标需紧密结合下游应用。例如对于医学诊断保真度和准确性高PSNR可能比视觉美观更重要而对于摄影艺术修复感知质量高LPIPS则是首要目标。4.2 当前挑战与未来方向尽管扩散模型在底层视觉中取得了巨大成功但仍面临诸多挑战这也是未来研究的主要方向。4.2.1 缓解扩散模型的固有局限采样效率低下这是扩散模型最大的应用瓶颈。未来方向包括设计更高效的SDE/ODE求解器如DPM-Solver通过知识蒸馏将多步模型压缩为少步甚至单步模型如SinSR在高度压缩的潜在空间进行扩散如LDM以及探索基于流匹配等非扩散的生成范式它们能提供更快的采样速度。模型体积与计算消耗巨大部署到移动或边缘设备困难。除了上述加速方法模型压缩技术如剪枝、量化、蒸馏需要被更广泛地应用于底层视觉扩散模型。EdgeFusion等工作展示了在神经处理单元上部署精简版文生图模型的可行性类似思路需要向修复类任务迁移。4.2.2 融合底层视觉任务的特有需求突破感知-失真权衡设计混合模型将扩散模型的强大生成先验与CNN/Transformer的强失真约束能力结合。例如用CNN保证结构保真度高PSNR用扩散模型分支补充纹理细节高LPIPS。探索新的评估指标或帕累托前沿分析以更全面地衡量模型性能。下游任务友好型设计修复的最终目的是服务于分割、检测等高层次任务。未来研究可以探索双层优化联合优化底层修复网络和下游任务网络使得修复出的图像不仅看起来好更能提升下游任务的性能。或者借鉴对抗攻击的思想对修复图像添加微小的、对人类视觉不可感知的扰动使其更有利于下游模型识别。4.2.3 应对底层视觉的固有挑战真实世界图像复原如何让模型泛化到未知的、复杂的真实退化两个思路一是失真不变学习让模型学习对退化类型不敏感的特征表示二是退化估计即使无法显式估计也可以利用扩散模型的生成能力将合成数据集“翻译”成更接近真实退化的数据从而提升模型在真实场景下的鲁棒性。数据饥渴领域的解决方案在医学、遥感等领域高质量配对数据稀缺。利用扩散模型强大的生成能力从有限数据中生成高质量的伪配对数据用于训练是一个极具潜力的方向。这需要研究如何确保生成数据的多样性和真实性。可控与交互式底层视觉未来的工具应该允许用户告诉模型“修什么”和“怎么修”。结合视觉-语言大模型如CLIP用户可以通过文本提示“让天空更蓝”、“修复桌上的水杯”来交互式地引导修复过程。MPerceiver、AutoDIR等工作已经展示了这种“提示工程”在通用图像修复中的巨大潜力。4.2.4 多模态技术赋能底层视觉文本提示的深入利用SUPIR、CoSeR等已经证明了结合文本描述的强大。未来更精细的提示如区域描述、风格描述将实现更精准、用户定制的修复。超越文本的多模态融合除了图像和文本音频、传感器数据温度、湿度等都可以作为辅助信息。例如在视频去模糊中音频可能包含场景动态信息在去雾中实时的湿度传感器数据可以提供先验。具身智能范式鼓励整合多感官信息这将使底层视觉模型更像一个与物理世界交互的智能体而不仅仅是一个图像处理器。从我个人的实践来看扩散模型为底层视觉打开了一扇新的大门它让我们第一次有机会在保证稳定训练的前提下生成媲美甚至超越GAN的逼真细节。然而它的“慢”也是实实在在的工程挑战。未来的趋势必然是“混合”与“高效”将扩散模型的生成先验与其他高效架构CNN, Transformer, 流模型相结合在速度、质量和可控性之间寻找最佳平衡点。同时如何让这些强大的模型更好地理解物理世界、响应用户意图、并服务于更广泛的科学和工程领域将是更激动人心的课题。这个领域正在飞速发展每天都有新的想法涌现保持关注、动手实践、深入思考是跟上浪潮的唯一方式。