波士顿大学与微软研究院联手,教AI“像大脑一样看视频“
这项由波士顿大学与微软研究院印度分部联合完成的研究以预印本形式发布于2026年5月21日论文编号为arXiv:2605.22678有兴趣深入了解的读者可通过该编号查询完整论文。人类每天都在看视频但我们的大脑从来不是把视频里的每一帧都认认真真处理一遍。脑神经科学早就发现我们的视觉系统更像一台精明的预测机器它会不断预判接下来应该发生什么只有当现实和预测出现偏差时大脑才会格外警觉、集中注意力。一只北极熊在雪地里走路步伐规律、画面平稳大脑处理这段信息几乎不费力但当一只海豹突然从冰层里钻出来大脑立刻精神一振——这才是真正需要认真看的时刻。受这一生物学原理启发来自波士顿大学和微软研究院印度分部的研究团队提出了一个名为Swift Sampling快速采样的全新视频帧选择算法试图让AI在处理长视频时也能像人类大脑一样把有限的注意力集中在真正重要的瞬间。一、长视频处理的注意力危机当前的视频AI通常被称为视频大语言模型可以理解为能看懂视频并回答问题的AI系统面临一个根本性的困境长视频包含的信息量太大了。一段30分钟的视频如果每秒提取一帧就有将近1800张图片而现有的AI系统通常只能处理几十帧。于是几乎所有系统都默认采用一种最简单粗暴的做法——均匀采样也就是每隔固定时间抽一帧就像把一本书每隔几页撕一张纸然后拼在一起试图理解故事情节。这种做法的问题显而易见。视频的大部分时间里画面变化极其缓慢——说话的人嘴唇在动、背景纹丝不动或者一段烹饪教程里炒菜的动作重复了五分钟。这些帧与帧之间几乎一模一样抽哪几帧都无所谓。然而真正关键的信息往往集中在极短的片段里一个关键动作、一个场景切换、一件意外的事情发生。均匀采样很可能恰好错过这些瞬间却把大量冗余帧送进AI系统白白浪费了有限的处理预算。既有的改进尝试也各有问题。有研究者引入光学流一种专门分析画面运动的技术来判断哪些帧更动感但这需要额外调用一个独立的运动分析模型计算成本几乎翻倍。还有方法通过对比每对帧之间的相似度来找出与众不同的帧但这不仅需要单独运行一个图像编码器来处理所有候选帧还需要人工调整相似度阈值这类参数一旦参数设置不当效果就会大打折扣。Swift Sampling的出发点正是为了解决这些痛点既不需要额外的模型也不需要手动调参却能精准识别出视频中真正令人意外的关键帧。二、泰勒展开式预言家的数学工具Swift Sampling的核心思想可以用一个日常场景来理解。假设你正在开车观察前方一辆匀速行驶的货车。根据它过去几秒的运动轨迹你可以很自信地预测它下一秒会在哪里。如果它真的按你预测的轨迹走那这段时间里你的关注度可以保持在较低水平但如果它突然急刹车或猛地并线与你的预测出现巨大偏差你的注意力就会瞬间达到峰值。研究团队把视频中每一帧的视觉特征可以理解为AI对这帧图像的感知摘要是一个由大量数字组成的向量当作货车的位置把时间当作路程将整段视频的视觉特征序列看作一条在高维空间中随时间流动的轨迹。如果视频内容变化平缓这条轨迹就会非常光滑如果某个瞬间发生了意想不到的变化轨迹就会出现一个急剧的拐折。为了预测轨迹的下一个点研究团队借用了数学中一个经典工具——泰勒展开式。这个工具本质上是说只要你知道一个东西当前的位置、速度和加速度乃至更高阶的变化率就能相当精确地预测它下一时刻的状态。具体来说若已知前N帧的视觉特征就可以通过计算特征序列的一阶差分速度、二阶差分加速度、三阶差分加加速度也叫急动度将这些信息综合起来外推预测下一帧的视觉特征应该是什么样子。实验中研究团队将泰勒展开的阶数固定为N3也就是同时考虑速度、加速度和急动度三个层面的变化信息。这个选择不是拍脑袋决定的——后续的实验系统地比较了N1到N8的效果结果表明从N1到N3精度明显提升此后继续增加阶数收益迅速递减。这说明视频特征轨迹的局部动态用三阶近似就已经捕捉得相当充分。三、意外程度评分与关键帧筛选有了预测值接下来就是计算意外程度。研究团队定义了一个叫做泰勒残差Taylor Residual的指标对于每一帧用泰勒展开预测出的特征向量与该帧实际的特征向量之间的距离具体是欧氏距离可以理解为空间中两点之间的直线距离作为这一帧的意外评分。距离越小说明AI对这帧的预测越准这帧的内容越符合视频一贯的走势属于冗余帧距离越大说明这帧的实际内容与预测偏差极大视频在这一刻发生了某种出人意料的变化这就是时间惊喜是值得保留的关键帧。从信息论的角度研究团队也给这个直觉提供了数学支撑在一种理想化的假设下一帧的信息量香农自信息量衡量一个事件有多么出乎意料与泰勒残差的平方成正比。换句话说残差越大这帧携带的新信息越多从信息论角度越值得保留。然而直接选取全局残差最大的K帧会有一个陷阱。在一段剧烈运动的视频片段里每一帧的残差可能都很大而在一段相对平静的片段里即便有些帧相对于其邻居而言已经算是比较意外了其绝对残差值却可能并不突出。如果只看绝对值所有关键帧都会扎堆在那段最闹腾的时间段里其他时段里的关键事件就被彻底忽略了。为了解决这个问题研究团队设计了一种更聪明的选帧策略选取残差序列中的局部极大值点——也就是每个在自己左右邻居中残差最高的帧。这类似于在一条起伏的山脉中选出每一段山峰的最高点而不是只盯着整条山脉的最高峰。这样即便视频某段时间整体比较平静那段时间里最出乎意料的帧也能被找出来实现了对视频各个时段的均衡覆盖。如果局部极大值的数量超过预算K就从中挑残差最大的K个如果视频太过平静、局部极大值不足K个则把剩余名额留给非极大值帧中残差最高的那些确保帧数预算被充分利用。从工程实现的角度Swift Sampling还有一个精妙之处计算泰勒残差所需的视觉特征直接复用视频大语言模型自身视觉编码器第一层最早期的注意力机制中的键向量Key projection。这些向量本来就是模型前向传播过程中必须计算的中间结果提取它们几乎不产生额外的计算开销。因此整套方法给模型原本的推理成本只增加了约2%即1.02倍而对比基准方法Cosine Uniqueness需要额外运行一个完整的视觉编码器总成本高达1.60倍。Swift Sampling的额外开销仅是其三十分之一左右。四、为什么用第一层的特征而不是深层特征研究团队对提取特征的层数进行了系统对比结果颇为有趣。直觉上越深层的特征语义越丰富似乎应该对帧的重要性有更好的判断。但实验表明第一层l0的键向量在综合效果上反而最好。研究团队对此给出的解释是浅层特征更多反映低层次的视觉信息比如颜色、纹理、边缘等这些信息随时间变化的规律更平滑、更具规律性因此泰勒展开的预测效果更好残差对真正的场景变化也更敏感。相比之下深层特征更关注整体语义和抽象概念其时序变化规律更复杂泰勒预测的效果反而打折容易把语义上的跳跃和真正意义上的视觉突变混淆。此外从计算成本角度层数越浅需要运行的计算越少进一步降低了额外开销。五、实验验证在三大基准测试上的表现研究团队在三个权威的长视频问答基准上对Swift Sampling进行了全面测试Video-MME、MLVU和LongVideoBenchLVB。这三个基准都采用选择题形式题目涵盖动作识别、时序推理、空间感知、信息摘要等多种类型视频长度从短片到超过30分钟的长视频不等。实验以LLaVA-OneVision和LLaVA-Video两个主流视频大语言模型作为主干对每段视频先均匀采样128帧作为候选池再用各种方法从中选出32帧送入模型处理。以LLaVA-OneVision为例与直接均匀采样32帧相比Swift Sampling在LVB数据集的整体准确率从55.3%提升至57.9%提升了2.6个百分点在MLVU上从64.7%提升至65.6%提升0.9个百分点。提升最明显的是长视频子集对于LVB中时长超过20分钟的视频准确率从47.5%跳升至54.3%足足提升了6.8个百分点对于MLVU中时长超过30分钟的视频提升达4.2个百分点。使用LLaVA-Video作为主干时趋势同样一致MLVU整体提升3.0个百分点LVB长视频子集提升2.9个百分点。与需要更高计算开销的同类方法相比Swift Sampling表现也非常有竞争力。另一个名为MaxInfo的方法计算开销达到均匀采样的1.79倍在部分指标上略高于Swift Sampling但在LVB长视频子集上Swift Sampling以54.3%明显超过MaxInfo的50.8%差距达3.5个百分点。Cosine UniquenessCosine独特性方法通过帧间余弦相似度寻找最独特的帧的计算开销是1.60倍但在多个基准上反而不如均匀采样——这说明单纯追求视觉上与众不同并不等同于信息丰富。研究团队还将Swift Sampling与一种名为AKS自适应关键帧采样的查询感知方法结合使用——AKS可以根据用户提出的问题来判断哪些帧更相关。将Swift Sampling作为AKS的预筛选器先用Swift Sampling将候选帧从128帧精简到96帧再由AKS从96帧中选32帧不仅将AKS的计算成本从1.53倍降至1.43倍准确率反而有所提升在MLVU上增加0.8个百分点在LVB上增加0.6个百分点。这说明Swift Sampling筛掉的帧大多确实是无信息帧留下的候选集质量更高反而让后续的查询匹配工作更加精准。六、帧数预算越紧优势越突出研究团队还专门分析了帧数预算即最终送入AI的帧数K对效果的影响。这个实验尤其能体现Swift Sampling的价值。当每段视频只允许保留32帧时Swift Sampling在MLVU的超长视频≥30分钟子集上比均匀采样高4.2个百分点。当预算降至16帧时优势扩大到2.1个百分点。当预算进一步压缩到4帧时对于超长视频Swift Sampling比均匀采样高出惊人的12.5个百分点当预算只剩2帧时仍然高出10.4个百分点。这组数据揭示了一个朴素而深刻的道理帧数预算越紧张选哪几帧就越关键。当每段视频只有4帧的名额时均匀采样几乎注定会错过最关键的信息而Swift Sampling通过精准定位意外瞬间即便在极度受限的条件下也能最大限度地保住关键信息。七、除了问答还能用在哪里研究团队还验证了Swift Sampling在视频问答之外的应用场景。在视频描述生成任务上研究团队将Swift Sampling应用于TempCompass基准用GPT-4o来评判生成描述的质量。结果显示Swift Sampling在动作、方向、顺序、速度等多个类别上均有提升唯独在属性变化类别上有所下降。研究团队推测描述物体属性的逐渐变化比如颜色慢慢变深可能恰好是视觉特征缓慢演变的片段泰勒残差较低容易被筛掉。在视频词元压缩Token Compression任务上研究团队将Swift Sampling与当前最先进的UniComp方法结合。UniComp的思路是对每帧的视觉词元进行进一步压缩减少送入语言模型的信息量。将Swift Sampling选出的帧作为UniComp的输入在所有压缩率下均比原始均匀采样UniComp的组合效果更好最高提升达1.6个百分点。对于Video-MME基准中的各类细分任务Swift Sampling在空间推理5.4%、动作推理3.9%、时序推理2.8%和动作识别2.2%上的提升最为突出。研究团队认为这些任务都需要对视频中发生了什么改变有精准的感知而这正是基于运动轨迹意外感的帧选择最擅长的事情。相对地需要全局时序连贯性的任务如时序感知和计数出现了轻微下降原因在于这类任务可能依赖于视频中即便不令人意外也需要覆盖到的均匀时间点信息。八、局限与未来方向研究团队在论文中坦诚地指出了Swift Sampling目前的主要局限。由于方法是完全查询无关的即在选帧时根本不知道后续要回答什么问题所以偶尔会选到视觉上很突然、但与问题毫无关联的帧比如视频开头或结尾的片头片尾卡或者突然出现的字幕板。从定性对比图中可以看到Cosine Uniqueness方法也有类似问题甚至更严重——它会特别偏爱那些视觉上格外特立独行的帧如水下镜头、黑白画面却不管这些帧是否真的有用。Swift Sampling在这方面表现好一些但也并非完全免疫。研究团队提出未来可以探索将泰勒残差信号与任务描述相结合让帧的意外感评分同时参考查询内容实现查询感知的意外帧选择。此外将这一框架扩展到音频流和时空多模态信号以获得更全面的视频理解也是值得探索的方向。说到底这项研究做的事情其实很朴实把大脑早就在用的只关注意外这一原则用数学语言写清楚嵌进现有的AI视频系统里几乎不增加任何额外负担却让AI在处理长视频时变得更聪明了一点。尤其对于那些动辄几十分钟的视频这种聪明体现得格外明显——毕竟在长达半小时的视频里均匀撒上32帧和精准捕捉其中最关键的32个瞬间效果差异可以高达12.5个百分点这个差距在实际问答应用中可能就是答对和答错之间的分水岭。这项工作也提醒我们很多时候让AI更聪明并不需要把模型做得更大、把数据喂得更多而是从根本上重新思考哪些信息值得处理这个问题。当这个问题的答案和人类大脑的工作原理高度吻合时往往能以极小的代价换取显著的提升。对于长视频时代的AI理解系统来说这或许是一个值得持续深挖的方向。感兴趣的读者可以通过论文编号arXiv:2605.22678查阅完整原文了解更多技术细节和实验数据。---QAQ1Swift Sampling是一种什么类型的算法需要单独训练吗ASwift Sampling是一种无需训练的视频关键帧选择算法。它直接复用视频AI模型视频大语言模型自身视觉编码器第一层的中间计算结果通过泰勒展开预测每帧的视觉特征再计算预测值与实际值的偏差来评估每帧的意外程度不需要任何额外的训练过程或独立的外部模型。Q2泰勒残差选帧和传统的均匀隔帧抽取相比核心优势在哪里A均匀采样会把抽帧名额平均分配到整段视频的各个时间点不管那些时间点的内容是否有意义。泰勒残差方法则把名额集中给那些视觉走势出现意外转折的时刻重复冗余的帧基本不会入选。视频越长、帧数预算越少这种差异就越明显在每段视频只保留4帧的极端条件下准确率差距可达12.5个百分点。Q3Swift Sampling在哪类视频任务上效果最明显哪类任务上表现会下降ASwift Sampling在需要捕捉发生了什么变化的推理任务上提升最显著比如空间推理、动作推理、时序推理和动作识别提升幅度在2%至5%之间。但在需要对整段视频保持均匀时序覆盖的任务上如计数和时序感知由于方法会主动跳过不意外的时间段可能错过一些均匀分布的必要信息出现轻微的准确率下降。