AI 公司 Cohere 正式发布了其首款语音模型 Cohere Transcribe
在人工智能语音识别领域一个新的里程碑已经到来。企业级 AI 公司 Cohere 正式发布了其首款语音模型Cohere Transcribe这是一个专门用于自动语音识别ASR的开源模型以5.42% 的平均词错误率登顶 Hugging Face 开放 ASR 排行榜超越了包括 OpenAI Whisper Large v3、ElevenLabs Scribe v2 在内的所有竞争对手。这不仅仅是一个实验室里的研究成果而是一个为实际生产环境精心打造的工业级解决方案。Cohere Transcribe 的发布标志着语音识别技术进入了一个新的阶段在准确性、效率和可用性之间实现了前所未有的平衡。为生产而生的设计哲学Cohere Transcribe 是一个 20 亿参数的语音识别模型采用 Apache 2.0 许可证在 Hugging Face 上完全开源。与许多追求参数规模的模型不同Cohere 团队从一开始就将生产可用性作为核心设计目标。这意味着模型不仅要在基准测试中表现出色更要在真实的企业应用场景中稳定可靠地运行。模型的架构选择体现了这种务实的设计思路。Cohere Transcribe 采用了Fast-Conformer 编码器配合轻量级 Transformer 解码器的非对称结构将超过 90% 的参数分配给编码器。这种设计大幅减少了自回归推理的计算量使得模型能够以525 倍实时速度处理音频输入——这意味着处理 1 分钟的音频只需要约 0.11 秒。相比之下许多基于预训练文本大模型改造的语音识别系统虽然训练成本更低但在推理速度和服务成本上却付出了高昂代价。从训练数据的角度看Cohere 投入了大量精力进行数据工程。模型在50 万小时的精选音频-文本对上进行训练并通过多轮错误分析不断优化数据配比。团队使用了专有的数据清洗管道和混合平衡方法还进行了严格的音频去污染检查以防止测试集泄露。这种对基础工作的重视正是模型能够在实际应用中表现优异的关键。全面领先的性能表现在 Hugging Face 开放 ASR 排行榜上Cohere Transcribe 以5.42% 的平均词错误率位居榜首在八个英语基准测试中的多项指标上都取得了最佳成绩。在 LibriSpeech clean 测试集上模型的词错误率仅为1.25%在 LibriSpeech other 测试集上为2.37%在 AMI 多人对话场景中为8.15%。这些数字不仅超越了 OpenAI 的 Whisper Large v3平均 7.44%也优于 Zoom Scribe v15.47%、IBM Granite 4.05.52%等专业竞品。更重要的是这种优势不仅体现在自动化指标上在人工评估中同样得到了验证。训练有素的标注员从准确性、连贯性和可用性等多个维度对转录质量进行评估结果显示 Cohere Transcribe 在与竞争对手的直接对比中获得了61% 的平均胜率。在与 IBM Granite 4.0 的对比中人类评估者有 78% 的情况更偏好 Cohere 的转录结果与 NVIDIA Canary Qwen 相比这一比例为 67%与 Whisper Large v3 相比为 64%。这种自动化指标与人工评估的一致性表明模型的改进不仅仅停留在受控的基准测试环境中而是真正转化为了实际转录场景中的质量提升。无论是会议室的声学环境、多人对话的复杂场景还是不同口音的语音输入Cohere Transcribe 都展现出了卓越的鲁棒性。真正的多语言能力Cohere Transcribe 支持 14 种语言包括英语、中文普通话、日语、韩语、越南语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语和阿拉伯语。在除英语外的 13 种语言中该模型在所追踪的基准测试中达到或超越了最佳开源模型的表现。模型使用了一个16k 多语言 BPE 分词器支持字节回退机制这个分词器是在与训练数据同分布的样本上训练的。在训练过程中团队应用了信噪比在 0 到 30 分贝范围内的非语音背景噪声增强并借鉴了 NVIDIA Canary 的做法使标点符号在提示中可定制化。这使得模型能够在没有大小写或标点参考转录的开放数据集如多语言 LibriSpeech上进行训练而在推理时默认为所有转录添加标点。在多语言人工评估中Cohere Transcribe 同样表现出色。在与开源竞争对手的对比中该模型在多个语言上都获得了评估者的偏好证明了其多语言能力不仅仅是数字上的提升而是真正可用的质量改进。生产级的推理优化为了确保模型能够在真实的生产环境中高效运行Cohere 团队与 vLLM 项目深度合作对推理堆栈进行了重大改进。虽然 vLLM 通过连续批处理和 KV 缓存优化实现了高吞吐量的大语言模型服务但其编码器批处理会将输入序列填充到固定长度这在处理可变长度音频输入的并发 ASR 工作负载时会造成瓶颈。Cohere 团队重新设计了调度器支持对可变序列长度的编码器请求进行细粒度的并发执行从而提高了 GPU 利用率和吞吐量。他们扩展了运行时和模型堆栈以原生支持可变长度音频输入这涉及对注意力元数据、KV 缓存管理和模型接口的更新。通过在最小填充的批次上执行卷积编码器然后将输出转换为打包表示供基于 FlashAttention 的解码器使用系统在保持编码器并行性的同时实现了高效的注意力计算减少了填充标记带来的冗余工作。这些优化为 Cohere Transcribe 带来了高达 2 倍的吞吐量提升而且这些改进已经贡献回 vLLM 开源项目增强了 vLLM 大规模服务语音模型和其他类似架构的能力同时使运行时对其他多模态工作负载更加灵活。简洁的使用体验尽管背后有着复杂的技术架构Cohere Transcribe 的使用却极为简单。模型在 Transformers 库中获得了原生支持用户只需几行代码就能完成音频转录import torchfrom transformers import AutoProcessor, AutoModelForSpeechSeq2Seqfrom huggingface_hub import hf_hub_downloadmodel_id CohereLabs/cohere-transcribe-03-2026device cuda:0 if torch.cuda.is_available() else cpuprocessor AutoProcessor.from_pretrained(model_id, trust_remote_codeTrue)model AutoModelForSpeechSeq2Seq.from_pretrained(model_id, trust_remote_codeTrue).to(device)model.eval()audio_file your_audio_file.wavtexts model.transcribe(processorprocessor, audio_files[audio_file], languageen)print(texts[0])模型接受文件路径直接输入无需手动预处理。对于企业用户Cohere 还通过其 API 免费提供模型访问并将其集成到 Model Vault 托管推理平台中。未来Cohere 计划将 Transcribe 更深入地集成到其企业级 AI 代理编排平台 North 中进一步扩展其超越转录的能力。清晰的局限性与未来方向Cohere 团队对模型的局限性保持着坦诚的态度。目前模型不支持时间戳标注和说话人分离功能这在某些应用场景中可能是必需的。与大多数音频事件检测语音模型类似Cohere Transcribe 倾向于积极转录即使是非语音声音也可能被处理。此外在葡萄牙语、德语和西班牙语的转录中模型的表现略逊于某些竞争对手。但这些局限性并不影响模型在核心应用场景中的价值。对于会议记录、语音分析、实时客户支持等企业应用Cohere Transcribe 已经提供了业界领先的准确性和效率。团队正在持续改进模型未来版本有望在更多语言和功能上实现突破。开源的力量Cohere Transcribe 的发布不仅仅是一个新产品的推出更代表了一种理念最先进的 AI 技术应该是开放和可访问的。通过 Apache 2.0 许可证任何组织都可以下载、使用、修改和部署这个模型无需担心许可费用或使用限制。对于希望在本地部署语音识别能力的企业Cohere Transcribe 提供了一个完美的选择。20 亿参数的规模使得模型可以在消费级 GPU 上运行而不需要昂贵的专用硬件。对于追求极致性能的场景模型支持编译优化首次调用会产生一次性的预热成本但后续调用会显著加速。在语音识别技术日益成为各类应用基础设施的今天Cohere Transcribe 的出现为开发者和企业提供了一个强大而灵活的工具。无论是构建智能会议助手、实现多语言客服系统还是开发语音笔记应用这个模型都能提供可靠的技术支撑。从零到一的突破往往最为艰难而 Cohere 用 Transcribe 证明了在语音识别这个看似成熟的领域通过对基础工作的深耕和对生产需求的深刻理解仍然可以创造出令人惊喜的成果。这不仅是技术的胜利更是工程哲学的胜利——最好的模型不是参数最多的而是最能解决实际问题的。社区地址OpenCSG社区https://opencsg.com/models/CohereLabs/cohere-transcribe-03-2026hf社区https://huggingface.co/CohereLabs/cohere-transcribe-03-2026关于 OpenCSGOpenCSG 是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。