1. 文本到视频扩散模型的偏见问题现状文本到视频Text-to-Video, T2V扩散模型近年来取得了突破性进展能够根据自然语言描述生成高质量的视频内容。然而这些模型在生成过程中往往表现出明显的性别偏见特别是在职业相关的视频生成中。例如当输入一位医生在工作这样的中性提示词时模型更倾向于生成男性医生的视频而一位护士在工作则更可能生成女性护士的视频。这种偏见不仅反映了社会现有的性别刻板印象还可能进一步强化这些偏见。1.1 偏见的主要来源研究发现T2V模型中的性别偏见主要来自预训练的文本编码器如CLIP。这些编码器在大规模但社会平衡性不足的图像-文本数据上训练内化了某些职业与特定性别之间的不平衡关联。即使在中性提示下文本编码器也会将职业描述映射到与性别相关的嵌入方向。具体来说当分析16种常见职业的提示词嵌入时可以观察到明显的性别相关聚类。例如CEO和医生的嵌入更接近男性相关的方向而护士和教师则更接近女性相关的方向。这种隐式的性别关联通过分类器无关引导Classifier-Free Guidance在视频生成的每个去噪步骤中被反复强化导致生成的视频表现出系统性偏见。1.2 现有去偏方法的局限性目前针对生成模型的去偏方法主要集中于文本到图像T2I领域大致可分为两类基于训练的方法通过微调生成模型或抑制有偏见的潜在方向来减轻偏见。这类方法虽然效果显著但需要额外的训练计算成本在大规模视频生成中可扩展性有限。无需训练的方法通过修改提示词或调整文本嵌入来减轻偏见。这类方法计算效率高但通常会导致语义漂移改变原始提示意图且未考虑视频生成所需的时间一致性和身份持久性。现有的方法在应用到视频生成时面临三个主要挑战(1)偏见在时间维度上的持续性(2)长程时间结构和多身份场景的复杂性(3)帧级干预可能导致的不一致性。2. FAIRT2V框架的核心设计2.1 性别倾向评分与量化分析FAIRT2V首先引入了一个量化指标——性别倾向评分Gender-Leaning Score用于衡量中性提示嵌入中的隐式性别关联。对于每个职业oi我们定义三组提示词中性提示Tneu(oi) {A/An oi dj | dj∈D}多数群体提示Tmaj(oi) {A male oi dj | dj∈D}少数群体提示Tmin(oi) {A female oi dj | dj∈D}其中D是一组活动修饰词如在办公室工作、写报告等。通过文本编码器ϕ(·)将这些提示词编码为嵌入向量neuoi、majoi和minoi后可以计算局部偏见指数BIoi ⟨neuoi, majoi⟩ - ⟨neuoi, minoi⟩该指数表明中性嵌入更接近多数群体还是少数群体。进一步我们可以定义一个全局性别轴goi并将中性嵌入投影到该轴上得到性别倾向评分soi ⟨neuoi, goi⟩。评分的符号表示性别关联方向绝对值表示偏见强度。实验表明这种嵌入级的性别倾向确实会反映在生成的视频中。使用中性提示生成视频时性别分布与嵌入级的性别倾向评分高度相关而使用明确性别提示时生成的视频身份始终遵循指定的性别提示。2.2 基于锚点的球面测地变换FAIRT2V的核心创新是一种基于锚点的球面测地变换方法用于中和提示嵌入中的偏见。具体步骤如下锚点构建对于原始提示p构造两个明确的性别锚点提示pmaj A amaj oi dj和pmin A amin oi dj其中amaj和amin分别表示多数和少数群体属性如male/female。编码这些提示得到锚点嵌入ˆvmaj和ˆvmin。球面测地变换在单位超球面上通过以下公式计算去偏后的嵌入ˆvfairˆvfair sin(λθ)/sinθ ˆvmaj sin((1-λ)θ)/sinθ ˆvmin其中θ arccos(⟨ˆvmin, ˆvmaj⟩)是锚点间的角度距离λ是决定沿人口统计轴位置的系数。自适应系数选择λ*根据中性提示嵌入ˆv与各性别锚点的角度接近程度自适应确定λ* s·δmaj/(δmaj δmin)其中δmaj arccos⟨ˆvmaj, ˆv⟩δmin arccos⟨ˆvmin, ˆv⟩s根据ˆv更接近哪个锚点取1或-1。这种方法有两个关键优势(1)由于两个锚点编码相同的职业和场景语义沿其共享测地线移动能保持提示含义(2)基于角度倾向选择λ*可以沿职业特定的性别轴自适应地重新平衡锚点。2.3 动态去噪调度文本到视频扩散模型遵循渐进式精炼过程早期去噪步骤建立粗粒度结构和身份相关语义后期步骤细化局部外观和视觉细节。FAIRT2V采用动态去噪调度只在影响身份形成的扩散步骤中应用去偏嵌入。具体实现中我们基于原始提示嵌入v与其去偏对应物ˆvfair之间的余弦距离通过sigmoid函数计算自适应截止时间步ˆTˆT T·Sigmoid(1 - cos(v, ˆvfair))去偏嵌入ˆvfair仅应用于时间步t ≤ round(ˆT)之后恢复原始嵌入v。这种调度将偏见缓解集中在早期身份形成阶段同时不影响后期的精炼步骤从而保持时间连贯性和视觉平滑度。3. 视频公平性评估协议3.1 视频级公平评估的挑战与静态图像生成不同视频公平性评估面临独特挑战(1)主体身份可能随时间变化(2)视频常包含多个具有不同人口统计属性的个体(3)某些个体可能短暂出现或仅在背景区域。这些因素使得基于单帧或单主体的分析不可靠。3.2 VideoLLM与人工验证结合FAIRT2V提出了一种结合VideoLLM和人工验证的视频公平性评估协议VideoLLM分析使用视频大语言模型如Gemini处理整个视频通过结构化查询推断性别同时最小化提示引起的偏见。VideoLLM可以跨帧聚合视觉证据推理身份持久性、主体突出性和时间转换比逐帧分类器更可靠。视频公平比(VFR)基于VideoLLM的预测使用Jensen-Shannon散度计算VFR。给定N个视频V {v1,...,vN}VideoLLM分类器Cgender为每个视频输出性别概率q(i)∈ℝ²。将经验分布p 1/N Σq(i)与均匀目标分布q (0.5,0.5)比较VFR(V) 1/2 KL(p∥m) 1/2 KL(q∥m)其中m 1/2(pq)KL(·∥·)表示Kullback-Leibler散度。VFR值越低表示与目标公平分布越接近。人工验证虽然VideoLLM支持视频级推理但其预测可能受幻觉或提示敏感性影响。因此引入人工验证阶段由标注者验证二进制性别标签并评估视频质量用人类判断为基础自动化预测。4. 实验与结果分析4.1 实验设置我们在Open-Sora模型上评估FAIRT2V使用其基于CLIP的文本条件编码器进行语义引导。研究聚焦于职业-性别刻板印象使用提示A/An {occupation} is working选择四类职业CEO和医生女性少数群体、护士和教师男性少数群体。生成配置使用分类器无关引导α7.5和T50去噪步长。4.2 主要结果与两种代表性的无需训练去偏基线FairDiff和FairImagen相比FAIRT2V展现出明显优势公平性FairImagen去偏效果有限VFR分数与原始Open-Sora相近FairDiff提供最强的偏见缓解但可能导致过度校正如教师职业VFR从0.007增至0.036FAIRT2V在所有职业上一致减少偏见同时避免在已平衡情况下放大偏见。视频质量FairDiff显著降低视频质量如护士职业FVD增加约51%FAIRT2V在FVD和FAST-VQA指标上表现更好表明更有效地保持了视频质量。整体权衡FAIRT2V在公平性和生成保真度之间实现了更好的平衡特别是在捕捉时间连贯性和感知真实性的指标上改进一致。4.3 用户研究24名参与者评估了视频质量和语义对齐文本-视频内容对齐FAIRT2V保持与输入提示的强对齐获得更高比例的Yes评分而基线方法常以语义正确性为代价进行去偏。视频质量人工排名FAIRT2V生成的视频最常被排名最高基线方法常因视觉质量下降和时间不稳定而排名较低。4.4 消融研究动态去噪调度启用该调度一致提高感知质量和时间连贯性女性子组FVD降低9.1%FAST-VQA提高2.7%虽然对公平性影响因群体而异但确认其作为针对性质量精炼而非主要去偏机制的作用。文本编码器FAIRT2V在CLIP上表现稳定而在T5上会导致过度去偏和质量下降表明CLIP的全局嵌入更适合稳健的去偏。5. 实际应用与注意事项5.1 应用场景建议FAIRT2V特别适用于以下场景广告制作确保职业表现不受性别刻板印象影响教育内容生成平衡的职业示范视频娱乐产业创造多样化的角色表现5.2 实施注意事项提示工程中性提示应避免隐含的人口统计线索参数调整λ*系数可根据具体应用场景微调质量监控定期检查去偏后的视频质量多维度偏见当前方法主要针对性别偏见其他维度需扩展5.3 局限性主要针对二进制性别偏见对某些职业可能需要特定调整视频长度可能影响去偏效果文化差异未充分考虑在实际部署中建议结合领域知识进行定制化调整并建立持续监控机制确保去偏效果不随时间退化。同时需要注意该方法旨在减轻隐含偏见不应被用来覆盖明确的用户意图。