Token为何翻译成“词元”：来源、内涵和定义_科技资讯

Token为何翻译成“词元”：来源、内涵和定义

创始人

2026-03-30 18:02:40

0次

作者：林桂思理由：语文学习

Token（词元）术语详解：

来源、内涵、定义

AI热潮中，一个概念的地位正在渐渐凸显——Token，它是排行榜上大模型调用量的评估标准，也是大模型厂商销售套餐的计费单位。在3月22日至23日举行的中国发展高层论坛2026年年会上，国家数据局局长刘烈宏表示，Token“词元”不仅是智能时代的价值锚点，更是连接技术供给与商业需求的“结算单位”，为商业模式的落地提供了可量化的可能；也从官方角度上为Token给出了翻译：“词元”。

Token（词元），是语言学、计算语言学、自然语言处理（NLP）领域的核心基础术语，其内涵从符号学、理论语言学的原生概念，逐步延伸至计算语言学、大模型技术场景，最终形成了国内统一的“词元”译法。而Type与Token是相伴而生的一对经典二分术语，是现代语言学、语料库语言学、NLP技术的底层分析工具。

一、

Token的术语源头与中文译法演变

1. 英文词源与跨学科起源

Token的英文原生词源为古英语tācen，本义是符号、标记、信物、表征，核心内涵是“承载特定意义的具象化符号实例”。

该术语正式成为学术概念，最早源于美国逻辑学家、符号学创始人查尔斯·桑德斯·皮尔士（Charles Sanders Peirce）在1906年的符号学理论体系。皮尔士将符号分为两大范畴：Type（类型）是抽象的、规约性的符号原型；Token（实例）是Type在具体场景中的物理实现与个体实例，这是Type-Token术语对的正式起源。

随后，这对术语被结构主义语言学吸纳，与索绪尔提出的语言（Langue，抽象的社会规约性语言系统）/言语（Parole，具体的个人语言使用行为）二分体系高度契合，成为理论语言学分析语言符号的核心工具。

2. 计算语言学术语Type-Token

20世纪中期，随着机器翻译、语料库语言学兴起，该术语进入计算语言学领域，成为文本处理的基础概念，字型、字例，词型、词例，句型、句例等各个层级的语言单位在进行计量时，均使用了Type-Token这对术语。

以中文句子为例：“我吃苹果，我吃梨。”

分词后的Token序列：我、吃、苹果，我、吃、梨
Token总数（词例数）：6个
Type总数（词型数）：4个（去重后为：我、吃、苹果、梨）

3. 大模型时代的Token

2018年预训练语言模型兴起后，Token进一步成为大语言模型的核心底层单元，进入大众视野。

在大语言模型中，Tokenization（词元化）是将一个文本分割成多个Token的过程。通常，Token是指文本中具有独立意义的最小单位，可以是字符、单词、符号、数字或子词。

词元化过程：词元化是文本预处理的重要步骤，在这一步中，文本被分割成一个个的Token，通常包括：

字符：如 a,b,c, 你,我
单词：如“apple”“dog”“run”
标点符号：如逗号、句号、问号等
数字：如“123”“45.67”
子词（Subwords）：在一些先进的 NLP 模型（如 BERT、GPT）中，单词可能会被进一步拆分为更小的单元（例如，字节对编码（BPE）技术拆分“unhappiness”为“un”和“happiness”两个子词），实际上接近于“语素”，但是工业界对“语素”不熟悉，且有时甚至比英语的语素还小，故未能采用。

二、

中文译法的演变：从多译并存到“词元”的规范统一

在中文语境中，Token的译法经历了长期的演变，不同学科场景曾出现多个译法，最终在NLP/大模型时代形成了“词元”的学界共识：

三、

译为“词元”的核心理由与合理性

“词元”能成为最终的规范译法，核心在于其完美适配了Token在语言学与计算领域的双重内涵，解决了其他译法的局限性：

1. 贴合核心属性：锚定“最小基本单元”的本质

“元”在中文科技术语中，本义是“最基础、不可再分的基本单元”（如音元、语素元、数据元）。在NLP场景中，Token是文本处理、模型计算的最小不可再分单元，无论其形态是完整的词、子词、单个汉字/字符，“元”字都能精准概括其“基础单元”的核心属性，完美适配从“词级分词”到“子词分词”的技术演变。

2. 区分场景歧义：专属锚定语言学/NLP场景

用“词元”替代“标记、令牌、例符”等泛化译法，专门划定了该术语在语言处理场景的专属含义，避免了与编译原理、哲学、日常语境中的Token概念混淆，形成了清晰的术语边界。

3. 兼顾理论与应用：覆盖从语言学到工程的全场景

既保留了“词”的语言学本源，体现其作为语言符号的本质；又通过“元”字，适配了工程场景中“最小计算单元”的技术内涵，实现了理论语言学与计算语言学的术语统一。

4. 符合术语规范：国内学界与官方机构的统一共识

全国科学技术名词审定委员会在《计算机科学技术名词（第三版）》《语言学名词》中，已将NLP/计算语言学场景下的Token规范译为“词元”；ACL、EMNLP等顶会的中文译稿、国内高校计算语言学专业教材，均已统一采用“词元”译法。

5. 缺陷与不足

type和token在计算语言学中，（类）型和（实）例已经是非常成熟的翻译用法。单独将token翻译为词元，其实有混淆类型和实例的危险性。

主要原因在于，目前大语言模型的Tokenization的工作，做到了Sub-Word（子词）的层级，用“字”或“词”都不能直接对应，实质上接近“语素”。但是“语素”和“子词”，一个过于语言学，一个不够学术化，而用接近于“词”的“词元”来表示，大家感觉最为贴合。其实在不同的模型系统中，这些Token对应的Type才更重要，到底使用哪种层级的语言单位。

所以，英语的Token如果不翻译没有问题，英语中本来就是为了弱化单位的类型，而只计量实例。到汉语使用“词元”这个术语，在今天更接近“子词”这个Type（类型）的语言单位，而在Token（实例）上反而缺失了对应术语，容易引起理解上的混乱。

因此，如果给它一个更好的翻译，“实例”没有“词”的意味，也许“词元实例” 是更贴切的，就是冗长了一些。

四、

常见认知误区澄清

误区1：Token就是“分词”，大模型里的Token就是中文的“字”

澄清：Tokenization是将文本拆分为Token的过程，而非Token本身；大模型中的Token形态多样，中文场景下可能是单个字，也可能是双字词、多字词、子词片段，并非固定为“字”。Token的核心是“模型词表中的最小计算单元”，而非单纯的语言学分词结果。

误区2：Type就是“词”，Token就是“词的出现次数”

澄清：Type的范畴远大于“词”，它可以是词、语素、字符、标点符号，甚至是模型学习到的固定短语片段；Token也不是单纯的“次数”，而是每一次具体出现的实例本身，次数只是Token的统计属性。

误区3：大模型时代，Type-Token的传统语言学定义已经失效

澄清：大模型技术只是延伸了Token的工程内涵，并未否定其原生的语言学定义。模型词表中的每一个条目，本质就是一个Type；文本输入、生成过程中每一个出现的单元，就是对应Type的Token实例。Type-Token的二分逻辑，依然是大模型语言处理的底层语言学根基。

術語單元來源核心模型 Token 內涵符號學語言學場景知識科普子詞詞元

上一篇：无独有偶!多多科技手游辅助(辅助挂)果然确实有挂(正品开挂辅助软件)-哔哩哔哩

下一篇：中国打完对印战争后，印度为何不敢招惹，只因我国多年前一项决定(3)

Token为何翻译成“词元”：来源、内涵和定义

相关内容

热门资讯