字节面试官：Token到底是什么？有哪些分词算法？一篇文章讲清！

张

张建站

2026/6/8 3:30:04

10分钟阅读

一、Token到底是什么Token最近被官方翻译为词元对于大模型来说因为它只能处理数字所以要找到一种方式把原始输入的文本转换为数字这个就是分词器tokenizer所做的任务。分词器会按照分词算法把输入文本切分为多个token然后用一个数字ID来表示token后续大模型推理过程中都是使用这个数字ID来进行计算。二、如何切分Token分词算法详细解析分词器使用的分词算法有三大类分别是词级分词Word-based、字符级分词Character-based、子词级分词Subword现在大模型常用的是基于子词的分词算法下面将详细介绍这些算法原理。1、基于单词Word-based的分词算法基于单词的分词算法非常容易理解就是把原始文本拆分为单词然后为每个单词找一个数字ID进行表示例如输入“I love LLM”会被拆分为[‘I’, ‘love’, ‘LLM’]。优点语义比较完整容易理解缺点1、对于不在词汇表中的单词例如新词专业词汇缩写等没有办法进行表示会用一个未知token进行标记但是会损失这个单词的语义信息这就是Out Of Vocabulary超出词汇表问题2、这个词汇表可能会很大例如英语中有超过50万个单词如果构建每个单词到数字ID的映射那就需要跟踪这么多数量的token。2、基于字符Character-based的分词算法这个算法就是把文本拆分为字符例如输入text会被切分为[‘t’, ‘e’, ‘x’, ‘t’]。优点词汇量比较小以及未知的token会少得多因为每个单词都可以由字符构成。缺点1、单个字符本身表示的含义有限2、大模型处理的token数量变得很多例如一个单词在词级分词算法中用一个token就可以表示但是在字符分词中就需要拆分为多个token才行因此目前主流的算法是基于子词的算法。3、基于子词subword的分词算法这种算法是把单词拆分为多个子词既能保持空间效率同时也具有语义含义核心原则是常见词不应该被分解为更小的子词但是不常见的词应该被拆分为更有意义的子词。例如“tokenization”被分割成[‘token’,‘ization’]能够在词汇量小的情况下保持良好的覆盖率未知的token比较少如果输入的是’take’这种简单的词那就不会被拆分为更小的子词。基于子词的分词算法有三种常见实现分别是BPEByte Pair Encoding、WordPiece、Unigram区别是使用不同的方法来构建词汇表。BPE算法构建词汇表的原理是初始化的词汇表是全部的字符然后统计语料中连续出现频率最高的字符对再合并字符对为新的子词加入到词汇表中循环这个过程直到词汇表满足指定的大小。WordPiece算法是BPE的改进版区别是构建子词不是合并频率最高的字符对是选择合并后语言模型似然增益最大的字符对可以简单理解为更贴合语言规律的字符对。Unigram算法的核心原理是自顶向下初始化超大的词汇表包含所有可能的子词和单词然后为每个子词计算语言概率简单理解为计算这个词是不是经常用然后逐步删除概率最小的子词直到词汇表达到预设的大小。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Stata实操：用五种方法搞定分组回归系数差异检验（附完整代码与避坑指南）

Stata实战：五种分组回归系数差异检验方法全解析与避坑指南当我们在经济学、金融学或管理学研究中遇到核心变量在不同组别间的效应差异问题时，分组回归系数差异检验就成为了关键分析工具。本文将深入剖析五种主流方法，从最基础的交乘项到高级…...

2026/5/8 14:16:50 阅读更多 →

从物理到逻辑：深入解析Underlay与Overlay网络的技术演进与融合之道

1. 从物理线缆到逻辑隧道：网络架构的进化史第一次接触网络设备时，我被机房里的蜘蛛网般的线缆震撼到了。这些铜缆和光纤就是最原始的Underlay网络，它们像城市的道路系统，决定了数据包最基本的通行路径。但随着云计算和虚拟化技术…...

2026/5/8 14:16:51 阅读更多 →

AI风口已至！手把手教你转行AI产品经理_2026年转行指南

这两年AI突然“火起来” 了 ，算是出现了一个“大转折”。因为就在这2年里，全球所有“大厂”几乎同一时间挤破头在跟进AI技术，从ChatGPT发布，到谷歌、Facebook、亚马逊等都紧跟其后，再到国内百度、腾讯、阿里、字节等也…...

2026/5/8 14:16:53 阅读更多 →

如何用Rust构建高效小说下载器：Tomato-Novel-Downloader技术深度解析

如何用Rust构建高效小说下载器：Tomato-Novel-Downloader技术深度解析【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 在数字阅读时代，如何高效管理和离…...

2026/6/7 0:02:43 阅读更多 →

Windows与Office激活难题的终极解决方案：KMS_VL_ALL_AIO完全指南

Windows与Office激活难题的终极解决方案：KMS_VL_ALL_AIO完全指南【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统激活失败而烦恼吗？每次重装系统后都要…...

2026/6/7 0:03:19 阅读更多 →