Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models简述在用强化学习Reinforcement Learning with Verifiable Rewards, RLVR训练大语言模型时不同模型家族存在显著差异同样的训练流程下Qwen 系列模型能获得巨大收益而 Llama 系列则提升有限。这种差异被称为RL-Friendliness强化学习友好性。https://github.com/QwenLM/FlashQLA最新算子库FlashQLAFlash Qwen Linear Attention是 Qwen 团队开源的一个高性能线性注意力算子库专门为 Qwen3.5/3.6 系列模型中的线性注意力机制做极致的 GPU 加速优化。FlashQLA 基于 TileLang 构建通过合理的算子融合和性能优化作用于 GDN Chunked Prefill 的前向和反向传播在 NVIDIA Hopper GPU 上相比 FLA Triton kernel 实现了前向 2-3 倍加速、反向 2 倍加速。在预训练场景和边缘侧 Agentic 推理场景中收益尤为明显。 githubFLA即Flash Linear AttentionTokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning如何在 LLM 做推理时估计它每一个 token / 每一步推理到底有多不确定并利用这个不确定性判断答案靠不靠谱甚至提升推理效果。它不是训练一个新 reasoning model而是提出一个training-free uncertainty estimation 方法不额外训练模型只在推理时对模型权重做轻量随机扰动从扰动后的多个“模型变体”中观察预测分布的变化。论文发表于 arXiv 2025-05-16方法名 TokUR 来自Token-level Uncertainty estimation for Reasoning。