rl/swe/sft相关论文列表

张

张建站

2026/5/27 8:13:51

10分钟阅读

rl/swe/sft相关论文列表

Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models简述在用强化学习Reinforcement Learning with Verifiable Rewards, RLVR训练大语言模型时不同模型家族存在显著差异同样的训练流程下Qwen 系列模型能获得巨大收益而 Llama 系列则提升有限。这种差异被称为RL-Friendliness强化学习友好性。https://github.com/QwenLM/FlashQLA最新算子库FlashQLAFlash Qwen Linear Attention是 Qwen 团队开源的一个高性能线性注意力算子库专门为 Qwen3.5/3.6 系列模型中的线性注意力机制做极致的 GPU 加速优化。FlashQLA 基于 TileLang 构建通过合理的算子融合和性能优化作用于 GDN Chunked Prefill 的前向和反向传播在 NVIDIA Hopper GPU 上相比 FLA Triton kernel 实现了前向 2-3 倍加速、反向 2 倍加速。在预训练场景和边缘侧 Agentic 推理场景中收益尤为明显。 githubFLA即Flash Linear AttentionTokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning如何在 LLM 做推理时估计它每一个 token / 每一步推理到底有多不确定并利用这个不确定性判断答案靠不靠谱甚至提升推理效果。它不是训练一个新 reasoning model而是提出一个training-free uncertainty estimation 方法不额外训练模型只在推理时对模型权重做轻量随机扰动从扰动后的多个“模型变体”中观察预测分布的变化。论文发表于 arXiv 2025-05-16方法名 TokUR 来自Token-level Uncertainty estimation for Reasoning。

使用botctl实现声明式命令行任务编排：从原理到CI/CD实战

使用botctl实现声明式命令行任务编排：从原理到CI/CD实战

1. 项目概述与核心价值最近在折腾一些自动化流程，尤其是在处理服务器运维、CI/CD流水线或者日常数据抓取这类重复性工作时，总希望能有个得心应手的“遥控器”。命令行工具是工程师的瑞士军刀，但很多工具的命令行参数复杂，不同工具…...

2026/5/12 5:44:32 阅读更多 →

手把手教你学Simulink——基于Simulink的T型三电平逆变器中点电位平衡控制

手把手教你学Simulink——基于Simulink的T型三电平逆变器中点电位平衡控制

目录手把手教你学Simulink——基于Simulink的T型三电平逆变器中点电位平衡控制摘要一、背景与挑战 1.1 为什么T型三电平的逆变器，总会陷入“偏压门”的泥潭？ 1.2 核心痛点与设计目标二、系统架构与核心控制推导 2.1 整体架构：从“盲人摸象”到“精准制…...

2026/5/12 6:32:33 阅读更多 →

自建搜索代理实践：基于Nginx与FastAPI构建聚合搜索系统

自建搜索代理实践：基于Nginx与FastAPI构建聚合搜索系统

1. 项目概述：一个自建搜索代理的实践最近在折腾一个挺有意思的东西，我把它叫做“MySearch-Proxy”。这个名字听起来可能有点技术范儿，但说白了，它的核心目标很简单：在现有的网络环境下，为自己搭建一个更干净…...

2026/5/26 21:51:24 阅读更多 →

8个必备的数据采集工具详解，低代码爬虫～

8个必备的数据采集工具详解，低代码爬虫～

网络爬虫是一种常见的数据采集技术，你可以从网页、 APP上抓取任何想要的公开数据，当然需要在合法前提下。爬虫使用场景也很多，比如： 搜索引擎机器人爬行网站，分析其内容，然后对其进行排名，比…...

2026/5/26 16:48:42 阅读更多 →

【架构设计】微服务架构设计模式：从理论到实践

【架构设计】微服务架构设计模式：从理论到实践

【架构设计】微服务架构设计模式：从理论到实践引言微服务架构已经成为现代软件开发的主流架构风格之一，它将大型单体应用拆分为多个小型、自治的服务，每个服务负责特定的业务功能。然而，微服务架构虽然带来了灵活性、可扩展性和…...

2026/5/26 16:48:47 阅读更多 →

小模型爆发出惊人能量！斯坦福开源框架AgentFlow如何实现复杂任务中的可靠工具使用？

小模型爆发出惊人能量！斯坦福开源框架AgentFlow如何实现复杂任务中的可靠工具使用？

本文介绍了斯坦福大学开源的模块化智能体框架AgentFlow，它通过独特的架构设计和训练方法，在工具集成和规划能力上取得了突破性进展。AgentFlow以Qwen-2.5-7B-Instruct为基础，在10个基准测试中表现突出，超越了大50倍的模型和GPT-4o…...

2026/5/26 16:48:45 阅读更多 →

ES 模块：JavaScript 模块化的标准方案

ES 模块：JavaScript 模块化的标准方案

ES 模块：JavaScript 模块化的标准方案什么是 ES 模块？ ES 模块（ES Modules，简称 ESM）是 ECMAScript 2015（ES6）引入的官方模块化规范。 ES 模块 vs CommonJS 特性CommonJSES Modules加载方式同步…...

2026/5/26 16:48:43 阅读更多 →