标题Fast Byte Latent Transformer来源arXiv, 2605.08044v1️文章简介研究问题如何突破字节级语言模型因逐字节自回归生成导致的推理速度慢和内存带宽瓶颈主要贡献提出了结合块扩散与投机解码的三种新方法在保持字节级优势的同时将生成成本降低超过 50%。重点思路提出 BLT 扩散BLT-D在训练时引入辅助的块级扩散目标使解码器能在单步前向传播中并行生成多个字节大幅减少解码步数。设计 BLT 自投机BLT-S利用轻量级本地解码器越过常规补丁边界进行草稿生成再通过全局模型单次验证无需额外草稿模型即可加速。开发 BLT 扩散加验证BLT-DV先用扩散机制快速生成字节块草稿再利用模型自带的自回归能力进行验证平衡了速度与生成质量。采用动态分块训练策略将变长补丁扩展为固定长度块并施加掩码噪声使模型学会预测超出平均补丁范围的未来字节。分析总结实验显示 BLT-D 是速度最快的方法相比原始 BLT 模型其在翻译和代码生成任务上的估计内存带宽成本降低了 50% 至 92%。增大扩散块尺寸能显著提升效率但会导致代码生成等复杂任务的性能下降表明存在速度与质量的权衡关系。BLT-S 在不损失任何任务性能的前提下通过减少昂贵的全局模型调用次数实现了高达 77% 的内存带宽成本降低。BLT-DV 通过引入验证步骤恢复了部分因扩散生成而损失的性能虽比纯扩散稍慢但仍能实现约 81% 的成本缩减。多样性分析表明减少解码器调用次数倾向于生成更重复的文本而增加调用次数则能提升生成内容的词汇丰富度。个人观点论文将离散扩散模型的并行生成能力与字节级潜在变换器的分层架构相结合提出的“自投机”机制尤为精妙直接复用模型现有的轻量级组件作为草稿机避免了传统投机解码需要维护独立小模型的开销。