作者:林桂思 理由:语文学习
Token(词元)术语详解:
来源、内涵、定义
AI热潮中,一个概念的地位正在渐渐凸显——Token,它是排行榜上大模型调用量的评估标准,也是大模型厂商销售套餐的计费单位。在3月22日至23日举行的中国发展高层论坛2026年年会上,国家数据局局长刘烈宏表示,Token“词元”不仅是智能时代的价值锚点,更是连接技术供给与商业需求的“结算单位”,为商业模式的落地提供了可量化的可能;也从官方角度上为Token给出了翻译:“词元”。
Token(词元),是语言学、计算语言学、自然语言处理(NLP)领域的核心基础术语,其内涵从符号学、理论语言学的原生概念,逐步延伸至计算语言学、大模型技术场景,最终形成了国内统一的“词元”译法。而Type与Token是相伴而生的一对经典二分术语,是现代语言学、语料库语言学、NLP技术的底层分析工具。
一、
Token的术语源头与中文译法演变
1. 英文词源与跨学科起源
Token的英文原生词源为古英语tācen,本义是符号、标记、信物、表征,核心内涵是“承载特定意义的具象化符号实例”。
该术语正式成为学术概念,最早源于美国逻辑学家、符号学创始人查尔斯·桑德斯·皮尔士(Charles Sanders Peirce)在1906年的符号学理论体系。皮尔士将符号分为两大范畴:Type(类型)是抽象的、规约性的符号原型;Token(实例)是Type在具体场景中的物理实现与个体实例,这是Type-Token术语对的正式起源。
随后,这对术语被结构主义语言学吸纳,与索绪尔提出的语言(Langue,抽象的社会规约性语言系统)/言语(Parole,具体的个人语言使用行为)二分体系高度契合,成为理论语言学分析语言符号的核心工具。
2. 计算语言学术语Type-Token
20世纪中期,随着机器翻译、语料库语言学兴起,该术语进入计算语言学领域,成为文本处理的基础概念,字型、字例,词型、词例,句型、句例等各个层级的语言单位在进行计量时,均使用了Type-Token这对术语。
以中文句子为例:“我吃苹果,我吃梨。”
3. 大模型时代的Token
2018年预训练语言模型兴起后,Token进一步成为大语言模型的核心底层单元,进入大众视野。
在大语言模型中,Tokenization(词元化)是将一个文本分割成多个Token的过程。通常,Token是指文本中具有独立意义的最小单位,可以是字符、单词、符号、数字或子词。
词元化过程:词元化是文本预处理的重要步骤,在这一步中,文本被分割成一个个的Token,通常包括:
二、
中文译法的演变:从多译并存到“词元”的规范统一
在中文语境中,Token的译法经历了长期的演变,不同学科场景曾出现多个译法,最终在NLP/大模型时代形成了“词元”的学界共识:
三、
译为“词元”的核心理由与合理性
“词元”能成为最终的规范译法,核心在于其完美适配了Token在语言学与计算领域的双重内涵,解决了其他译法的局限性:
1. 贴合核心属性:锚定“最小基本单元”的本质
“元”在中文科技术语中,本义是“最基础、不可再分的基本单元”(如音元、语素元、数据元)。在NLP场景中,Token是文本处理、模型计算的最小不可再分单元,无论其形态是完整的词、子词、单个汉字/字符,“元”字都能精准概括其“基础单元”的核心属性,完美适配从“词级分词”到“子词分词”的技术演变。
2. 区分场景歧义:专属锚定语言学/NLP场景
用“词元”替代“标记、令牌、例符”等泛化译法,专门划定了该术语在语言处理场景的专属含义,避免了与编译原理、哲学、日常语境中的Token概念混淆,形成了清晰的术语边界。
3. 兼顾理论与应用:覆盖从语言学到工程的全场景
既保留了“词”的语言学本源,体现其作为语言符号的本质;又通过“元”字,适配了工程场景中“最小计算单元”的技术内涵,实现了理论语言学与计算语言学的术语统一。
4. 符合术语规范:国内学界与官方机构的统一共识
全国科学技术名词审定委员会在《计算机科学技术名词(第三版)》《语言学名词》中,已将NLP/计算语言学场景下的Token规范译为“词元”;ACL、EMNLP等顶会的中文译稿、国内高校计算语言学专业教材,均已统一采用“词元”译法。
5. 缺陷与不足
type和token在计算语言学中,(类)型和(实)例已经是非常成熟的翻译用法。单独将token翻译为词元,其实有混淆类型和实例的危险性。
主要原因在于,目前大语言模型的Tokenization的工作,做到了Sub-Word(子词)的层级,用“字”或“词”都不能直接对应,实质上接近“语素”。但是“语素”和“子词”,一个过于语言学,一个不够学术化,而用接近于“词”的“词元”来表示,大家感觉最为贴合。其实在不同的模型系统中,这些Token对应的Type才更重要,到底使用哪种层级的语言单位。
所以,英语的Token如果不翻译没有问题,英语中本来就是为了弱化单位的类型,而只计量实例。到汉语使用“词元”这个术语,在今天更接近“子词”这个Type(类型)的语言单位,而在Token(实例)上反而缺失了对应术语,容易引起理解上的混乱。
因此,如果给它一个更好的翻译,“实例”没有“词”的意味,也许“词元实例” 是更贴切的,就是冗长了一些。
四、
常见认知误区澄清
误区1:Token就是“分词”,大模型里的Token就是中文的“字”
澄清:Tokenization是将文本拆分为Token的过程,而非Token本身;大模型中的Token形态多样,中文场景下可能是单个字,也可能是双字词、多字词、子词片段,并非固定为“字”。Token的核心是“模型词表中的最小计算单元”,而非单纯的语言学分词结果。
误区2:Type就是“词”,Token就是“词的出现次数”
澄清:Type的范畴远大于“词”,它可以是词、语素、字符、标点符号,甚至是模型学习到的固定短语片段;Token也不是单纯的“次数”,而是每一次具体出现的实例本身,次数只是Token的统计属性。
误区3:大模型时代,Type-Token的传统语言学定义已经失效
澄清:大模型技术只是延伸了Token的工程内涵,并未否定其原生的语言学定义。模型词表中的每一个条目,本质就是一个Type;文本输入、生成过程中每一个出现的单元,就是对应Type的Token实例。Type-Token的二分逻辑,依然是大模型语言处理的底层语言学根基。