一、文章核心总结主要内容这篇ICLR 2025会议论文聚焦大语言模型(LLM)的高效推理与上下文扩展,针对现有长上下文LLM在推理速度慢、显存占用高、长文本建模能力受限的问题,提出一套轻量化、即插即用的优化框架,兼顾长上下文理解与低资源推理。研究对象:Transformer架构LLM的注意力机制与推理 pipeline核心问题:长文本(≥8k tokens)下注意力计算复杂度O(n²)、KV缓存爆炸、推理延迟飙升解决思路:重构注意力计算逻辑,结合稀疏注意力+动态KV缓存压缩+层级上下文聚合,在不微调预训练模型的前提下提升长上下文效率验证场景:长文本问答、文档摘要、代码理解、多轮对话等任务创新点动态稀疏注意力(Dynamic Sparse Attention, DSA)无需预设稀疏模式,根据输入文本语义自动筛选关键token,将注意力复杂度从O(n²)降至O(n√n),长文本下速度提升3~5倍。层级KV缓存压缩(Hierarchical KV Compression, HKC)对历史上下文做分层聚合,保留核心语义同时压缩KV缓存大小60%~80%,显著降低显存占用。