本文借助 AI 大模型及工具辅助整理一句话总结今日学术界聚焦医疗 AI 安全评测临床大模型安全标尺、急诊分诊公平性审计与 AI Agent 能力边界搜索 Agent 多轨迹训练、检索增强生成编排工业界则围绕 Agent 商业化Amex 支付栈、Microsoft Agent 365 GA与算力基础设施AMD 数据中心收入飙升 38%持续推进。 AI 动态与趋势医疗 AI 落地进入安全优先阶段。本周 ArXiv 多篇论文聚焦临床大模型安全RadSaFE-200 评估框架揭示清洁证据可将放射科 LLM 高风险错误率从 12% 压至 2.6%但 Agentic RAG 并未复现同等安全收益EQUITRIAGE 对急诊分诊系统的审计发现所有模型性别翻转率均超 5% 阈值DeepSeek 和 Gemini 存在方向性女性低优先级风险。这些信号表明医疗 AI 从追求准确率向安全可信赖切换是监管落地的积极信号。搜索/检索 Agent 从能用走向好用。OpenSeeker-v2 证明仅靠 SFT 高质量轨迹数据学术团队即可训出超越重 CPTSFTRL 工业流程的搜索 AgentExperience-RAG Skill 则在检索编排层引入经验记忆使多跳推理与科学验证任务实现显著提升。RAG 领域正从检索器性能扩展到检索策略编排的新维度。企业 Agent 战场加速整合。Amex 推出 AI 代理商业支付意图合同架构Microsoft Agent 365 脱离预览Salesforce 发布 Agentforce Operations——大厂正在围绕谁来管控企业 Agent这一核心问题给出自己的答案治理层和控制层的争夺已经开始。 AI 今日看点行业观察AI Agent 的最后一公里不只是技术问题。今天几家企业级动态揭示了 Agent 从 demo 走向生产的深层挑战Amex 的 AI 代理支付方案虽然展示了意图合同和单次令牌机制但仍然存在黑盒问题影响审计透明度Microsoft Agent 365 将影子 AI 治理作为核心卖点说明大量企业员工已经在绕过 IT 管控使用 AI——这不是技术问题是组织行为问题Salesforce 的 Agentforce Operations 直言大多数企业流程从未为 AI 构建这句话背后是数千亿美元的企业软件遗产迁移工程。这些信号指向同一个结论Agent 落地的瓶颈正在从模型能力转向流程重构、治理机制和合规框架。技术可以快速迭代但组织变革需要时间这个时间差就是当前最大的机会窗口。 AI 大事件Microsoft Agent 365 正式发布影子 AI 治理成为核心卖点微软将其企业 AI Agent 控制平台从预览推向 GA支持跨 Microsoft 生态、AWS Bedrock、Google Cloud、终端 SaaS Agent 的统一观测与治理。核心卖点直指企业痛点员工正在绕过 IT 使用 AI影子 AI 已成为企业安全威胁。来源VentureBeatAmex 展示 AI 代理商业支付架构含意图合同与单次令牌机制美国运通展示了在自身支付网络内允许 AI 代理代表用户购物和支付的系统设计引入意图合同和单次令牌来规范代理行为但系统仍存在黑盒信任与可审计性问题。来源VentureBeatElon Musk 诉 Sam Altman 案开庭Greg Brockman 出席作证庭审围绕 OpenAI 早期架构、Musk 与 Altman 的分歧、以及 2018 年Fire Elon内部讨论展开。Brockman 为其 300 亿美元股份辩护称系血汗泪水所得。来源WiredMeta 正在开发类似 OpenClaw 的 AI Agent内部代号HatchMeta 正在开发面向普通用户的 AI Agent代号 Hatch和 Instagram 内置的代理式购物工具计划 Q4 前推出被视为 Meta 全面进入 AI Agent 消费市场的信号。来源The VergeLlamaIndex CEO 表示 95% 的代码已由 AI 生成AI 脚手架层正在消失LlamaIndex 联合创始人 Jerry Liu 指出 AI 编程正在压缩开发框架层级上下文context是当前唯一护城河暗示 AI 开发栈正在从多层工具链向端到端上下文引擎演进。来源VentureBeatGoogle DeepMind 员工投票组建工会因军事 AI 合作争议Google DeepMind 部分员工投票成立工会组织主要导火索是公司军事 AI 项目的伦理争议显示 AI 伦理与商业利益的张力正在向大厂内部蔓延。来源WiredApple 将支付 2.5 亿美元和解 Siri AI 功能集体诉讼来源WiredAMD Q1 数据中心收入 58 亿美元同比大涨 38%AI Agent 推动 CPU 需求来源The Verge️ AI 应用前线OpenAI 将 GPT-5.5 线下活动扩展为面向 8000 名开发者的一个月 Codex 赠送由于场地限制无法容纳所有申请者OpenAI 将原定现场活动扩展为一个月全员 Codex 额度赠送提升 10 倍调用限制至 6 月 5 日。来源VentureBeatxAI 推出 Grok 4.3主打极致性价比与语音克隆套件来源VentureBeatSalesforce 发布 Agentforce Operations 修复企业 AI 断链问题来源VentureBeat 数据速递•38%— AMD Q1 数据中心收入同比增幅来源The Verge•9 GW— 犹他州获批超大规模数据中心最大功耗预估超越整个州当前用电量来源The Verge•4 万英亩— 犹他州数据中心项目占地面积来源The Verge•85%— Meta Llama Scout 红队测试攻击成功率来源ArXiv, Dreadnode SDK 论文•94.1%— 清洁证据下临床 LLM 平均准确率来源ArXiv, SaFE-Scale 论文 今日概览| 维度 | 数据 || 日期 | 2026-05-06 || ArXiv 精选论文 | 18 篇 || GitHub 趋势项目 | 数据获取失败备注 || 新闻事件 | 10 条 |注GitHub Trending 页面因技术限制未能成功获取本期以 GitHub API 新仓库数据作为补充参考。 ArXiv 今日精选论文 大模型LLMSafety and accuracy follow different scaling laws in clinical large language models研究机构University Hospital Erlangen 等12 位作者提出了 SaFE-Scale 框架和 RadSaFE-200 基准200 道选择题涵盖清洁证据/冲突证据对 34 个本地部署 LLM 在 6 种部署条件下评测。清洁证据可将准确率从 73.5% 提升至 94.1%高风险错误率从 12% 压至 2.6%。但 Agentic RAG 未能复现同等安全收益。核心结论临床 LLM 安全性不是模型扩展的被动副产物而是证据质量、检索设计、上下文构建的综合部署属性。 arXiv:2605.04039 | 类别cs.CL / cs.AILogical Consistency as a Bridge: Improving LLM Hallucination Detection via Label Constraint Modeling提出了 LaaBLogical Consistency-as-a-Bridge框架桥接神经特征与符号判断进行幻觉检测。引入元判断机制将符号标签映射回特征空间通过响应标签与元判断标签的逻辑关系增强检测。ACL 2026 主会论文。 arXiv:2605.03971 | 类别cs.CLEQUITRIAGE: A Fairness Audit of Gender Bias in LLM-Based Emergency Department Triage在 374,275 次评估中对 5 个模型Gemini-3-Flash、Nemotron-3-Super、DeepSeek-V3.1、Mistral-Small-3.2、GPT-4.1-Nano进行急诊分诊公平性审计。所有模型性别翻转率均超 5% 阈值DeepSeek 和 Gemini 存在方向性女性低优先级偏见人口学信息盲化对不同模型效果差异显著。 arXiv:2605.03998 | 类别cs.CL / cs.CYFeature-Augmented Transformers for Robust AI-Text Detection Across Domains and Generators使用 HC3 PLUS 训练 DeBERTa-v3-baseFeatAttn 检测器在 M4 基准上达 85.9% 均衡准确率超越零样本基线 7.22 分。可读性和词汇特征对跨分布迁移贡献最大。 arXiv:2605.03969 | 类别cs.CL / cs.AI AgentOpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories仅用 10.6k 数据通过 SFT 训练搜索 Agent在 BrowseComp46.0%、BrowseComp-ZH58.1%、Humanity’s Last Exam34.6%、xbench78.0%上均超越 Tongyi DeepResearch重 CPTSFTRL 流程。学术团队首个在同类规模下达到 SOTA 的搜索 Agent。 arXiv:2605.04036 | 类别cs.AI / cs.CLRedefining AI Red Teaming in the Agentic Era: From Weeks to Hours基于 Dreadnode SDK 构建 AI 红队 Agent整合 45 对抗攻击、450 变换、130 评分器对 Meta Llama Scout 达 85% 攻击成功率严重度 1.0全部零人工代码。39 页深度报告。 arXiv:2605.04019 | 类别cs.AI / cs.CRExperience-RAG Skill: An Agent-Oriented Pluggable Experience-RAG Skill for Experience-Driven Retrieval Strategy Orchestration提出经验驱动的检索编排层在固定候选池下 BeIR/nq、BeIR/hotpotqa、BeIR/scifact 三数据集 nDCG10 达 0.8924超越固定单检索器基线并与 Adaptive-RAG 路由竞争。检索策略可封装为可复用 Agent 技能。 arXiv:2605.03989 | 类别cs.AIFrom Intent to Execution: Composing Agentic Workflows with Agent Recommendation提出多智能体系统自动编排框架含 LLM 推导规划器、动态调用图、Agent 推荐器fast retriever LLM re-ranker和批评代理。端到端基准显示召回率显著提升批评代理进一步增强任务级 Agent 选择。 arXiv:2605.03986 | 类别cs.AIRethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems提出 BRIGHT-Pro 评估基准多角度金标准证据和 RTriever-Synth 合成语料在推理密集型检索任务上揭示静态与 Agentic 评估协议之间的隐藏行为差异。 arXiv:2605.04018 | 类别cs.CL / cs.IRSymptomAI: Towards a Conversational AI Agent for Everyday Symptom AssessmentFitbit 上线 SymptomAI对 13,917 名参与者随机分配 5 个 AI 智能体进行端到端患者访谈和鉴别诊断。Agent 引导访谈策略显著优于用户主导对话P0.001DDx 准确率超独立临床医生OR2.47。 arXiv:2605.04012 | 类别cs.AI 多模态HeadsUp: Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View CapturesApple 团队提出 HeadsUp 方法使用 UV 参数化 3D Gaussian 和编码器-解码器架构基于 10,000 主体的内部数据集训练在无需测试时优化的情况下实现 SOTA 重建质量。展示生成新 3D 身份和表情驱动动画的应用潜力。 arXiv:2605.04035 | 类别cs.CV / cs.LG 基础研究A Closed-Form Adaptive-Landmark Kernel for Certified Point-Cloud and Graph Classification (PALACE)提出 Persistence Adaptive-Landmark Analytic Classification Engine在 Orbit5k 达 91.3% 准确率匹配 Persformer在 COX2 和 MUTAG 上领先所有图数据方法。提供逐预测可验证证书Pinelis 非渐近和渐近高斯形式。 arXiv:2605.04046 | 类别cs.LG / math.ATConditional Diffusion Sampling (CDS)将并行回火PT与扩散采样结合提出条件扩散采样框架。使用 PT 高效采样初始分布再通过精确闭式随机微分方程传输。ICML 2026 论文。 arXiv:2605.04013 | 类别stat.ML / cs.LGFlow Sampling: Learning to Sample from Unnormalized Densities via Denoising Conditional Processes将扩散模型扩展到无数据场景的能量函数采样提出去噪条件过程训练目标。推导出常曲率流形超球面、双曲空间上条件漂移的闭式公式。ICML 2026 Spotlight。 arXiv:2605.03984 | 类别cs.LG / cs.AIPretrained Model Representations as Acquisition Signals for Active Learning of MLIPs发现预训练 MLIP 的潜空间已包含有效获取信号无需辅助不确定性头或贝叶斯训练。在反应化学基准上数据需求平均减少 38%能量误差和 28%力误差。 arXiv:2605.03964 | 类别cs.LGPhysics-Grounded Multi-Agent Architecture for Traceable, Risk-Aware Human-AI Decision Support in Manufacturing (MAKA)针对航空 Ti-6Al-4V 转子叶片精密加工的多智能体决策支持架构融合虚拟加工轨迹误差场、切削力模拟、3D 扫描偏差图。在 3 级工具编排基准上相对基线提升 87.5pp成功协调预测表面偏差从 10^-2in 降至 ±10^-3in。 arXiv:2605.04003 | 类别cs.MA / cs.AILabel-Efficient School Detection from Aerial Imagery via Weakly Supervised Pretraining and Fine-Tuning仅用 50 个人工标注图像实现有力的学校目标检测提出自动标注管道利用稀疏位置点和语义分割生成建筑掩膜。两阶段训练 pipeline 支持低数据场景下的大规模基础设施映射。 arXiv:2605.03968 | 类别cs.CV / cs.AIEnhanced 3D Brain Tumor Segmentation Using Assorted Precision Training使用 SegResNet 架构和自动多精度训练进行 3D 脑肿瘤分割Dice 分数肿瘤核心 0.84、全肿瘤 0.90、增强肿瘤 0.79。 arXiv:2605.04008 | 类别cs.CV / cs.LG GitHub AI 趋势日榜 Top 15GitHub Trending 页面今日未能成功获取以下为 GitHub API 近期 AI 相关新晋仓库按相关性参考排名。今日趋势说明今日 GitHub AI 相关新仓库以 AI 编程工作流编排和垂直领域 AI 应用为主。受 OpenAI GPT-5.5 发布和 Codex 赠送活动影响开发者对 AI 辅助编程流程的需求持续升温。趋势项目rihebty/flow-kit— 融合 bmad、spec-kit、OpenSpec、GSD、claude-task-master、superpowers、gstack、skills 的 AI 编程规范化流程⭐ 29cool2michele0911-collab/StyleSense-AI— 风格感知 AI 相关项目今日新建[更多项目详见 GitHub Trending…]— 建议访问 github.com/trending 查看完整榜单 本期 GitHub 趋势数据受技术限制未能完整获取建议访问 github.com/trending 获取完整 Top 15 列表。 今日洞察医疗 AI 的下一个突破点不在模型本身而在于高风险错误的系统性控制。多篇论文共同指向一个结论模型规模、推理时计算增加并不自动带来安全性提升。清洁证据输入、专门的访谈式交互流程、人口统计学信息盲化——这些看似非技术的因素对安全性的影响可能超过继续扩大模型。医疗 AI 行业很快将面临监管强制要求可解释错误来源的压力这将是下一个工程化难题。Agent 编排层正在成为新的兵家必争之地。LlamaIndex CEO 说context 是唯一护城河Experience-RAG Skill 和 MAKA 架构则暗示另一层——谁来决定用什么工具、以什么顺序、基于什么上下文。这本质上是 Agent 时代的操作系统争夺战。传统中间件层LlamaIndex、RAG 框架在被 AI 生成代码侵蚀的同时也正在向更上层Agent 编排进化。未来 12 个月将看到这一层的标准战争。企业 AI 治理从事后合规转向实时管控。Microsoft Agent 365 和 Salesforce Agentforce Operations 的发布标志着大厂已经承认 Agent 扩散是企业现实而非趋势。接下来的问题是谁来为 Agent 的行为负责这个问题的答案将决定未来 5 年企业 AI 的法律和商业边界。✍️编辑策划 / 整理Fan Jun AI Tech Notes 组发布日期2026-05-06数据来源ArXiv API、GitHub API、VentureBeat、The Verge、Wired、机器之心等