首頁 萬花筒

AI科普十三讲⑧|Hi,词元Token:你会像水一样被汲之用之吗?(美中報道)

每次你用DeepSeek、豆包、ChatGPT、文心一言聊天时,有没有想过:AI到底是怎么“读懂”你的话的?为什么有时会提示“超过长度限制”?为什么有的AI用起来贵,有的却免费?

答案藏在一个叫“Token”的东西里。Token中文名叫“词元”,它就像AI世界里的“通用货币”,决定了AI的成本、能力以及你支付的费用。想搞懂AI,就得先搞懂Token。

一、什么是Token?

Token是AI处理文本的“最小单位”。你可以把它想象成饺子或乐高积木。当我们与AI交流时,它并不会直接处理连贯的句子,而是先将文本拆分成一个个它能“嚼得动”的小单元——这些单元就是Token。一个Token可以是一个完整的单词(如“apple”),可以是单词的一部分(如“un”、“believ”),甚至是一个标点符号。AI通过理解和处理这些标准化的小单元,最终组合出我们看到的回答。

例如,“苹果很甜”可能会被拆分为“苹果”、“很”、“甜”三个Token。

中文和英文在切分上略有不同:在主流模型中,一个中文汉字通常对应一个Token,而英文的一个单词有时会被拆成多个Token。因此,相同语义下,中文提问消耗的Token数量通常比英文更多。

Token并非随意切分,而是由大模型内部的Tokenizer(分词器)按照特定规则或算法“切”出来的。Tokenizer拥有一张庞大的词表,里面存放了它能识别的所有Token。切分完成后,Tokenizer会将每个Token转换成一个独一无二的整数ID。AI的神经网络正是通过处理这些整数ID来进行计算的。

二、为什么AI不用“字节”而用Token计量?

PC时代,电脑存储是按字节计量,AI为何不沿用字节计量,非要搞一个Token?这背后其实藏着AI设计的大智慧:

一是数量可控,模型才能装得下。汉字有几万个,英文单词有几十万个。如果直接按字节或字符建模,数据组合会大到离谱。Token只保留常用的文字片段,数量可控,模型才能高效运转。二是保留语义,不破坏词语。比如“巧克力”,如果按单字拆成“巧、克、力”,AI根本不懂是什么意思。Token把它当作一个整体,完整保留语义。三是统一处理,效率更高。不管中文、英文还是符号,都能转成Token,AI用同一套逻辑处理,省时省力。四是方便计费,控制成本。就像按字数算稿费一样,AI按Token用量收费,既能控制算力消耗,也方便用户算钱。

三、决定Token能力的核心因素

Token之所以能成为AI世界的“通用语言”,由以下核心因素共同决定。

一是模型架构:AI的“大脑”。这一切的基础是Transformer架构。它内部的参数就像神经元之间的连接,而“注意力机制”则是核心魔法——让AI在处理当前内容时,能精准“注意到”上下文中与之紧密相关的信息,无论距离多远。

二是上下文窗口:AI的“短期记忆”。上下文窗口的大小,决定了AI一次能同时处理的Token总数(包括你的问题+它的回答)。超出这个上限,AI就会拒绝或遗忘。早期AI只能记住约4K Token,如今已发展到百万甚至千万级别。但注意:如果你的输入太长,留给回答的Token空间就不够,回答会被截断。

三是准确度与偏见:潜在的性能陷阱。分词方式会影响模型表现。例如,单个Token被塞入太多字符,可能导致模型在拼写等任务上表现不佳。由于分词器主要基于英文训练,处理中文、韩文等非英语文本时效率较低,消耗Token更多,表现也可能有偏差。此外,分词阶段是纯统计的,可能放大训练数据中的社会偏见。

四是硬件与成本:AI应用的“烧钱”逻辑。每一次Token的计算都依赖昂贵的GPU,这是AI计费的基础。生成一个Token时,模型需要在整个上下文窗口中进行复杂计算,消耗大量计算资源和显存。而GPU运行又需要电力——运算越复杂,同时工作的GPU越多,电力成本越高(单个GPU约50瓦)。中国是电力大国,未来可以将Token“产能”输出给世界。

四、Token应用场景:AI的“运行逻辑”全靠它

Token不只是个计数单位,它贯穿了AI的整个运行过程(见下图)

五、Token正在影响整个AI产业链

Token的背后连着完整的AI产业链。

AI硬件:GPU、HBM内存、液冷服务器——都是为了处理更多Token。A股中有这个版块,今年一季度涨得老高了。

算力基建:智算中心、IDC数据中心——Token处理的“厂房”

光通信:光模块、高速互联——Token传输的“高速公路”

能源电力:绿电、储能——支撑海量Token的电力消耗

大模型与应用:通用模型、行业模型、AI Agent——全都与Token打交道

正因为如此,Token被称为AI产业的“通用货币”,所有环节都围着它转。关注资本市场一定要注意这一点。

六、Token未来趋势:高效普惠如水

随着AI技术发展,Token也在不断进化。未来主要有五个趋势:

更高效:优化分词技术,用更少的Token处理更多内容

多模态统一:文字、图片、音频、视频,未来都能转成统一的Token

上下文更长:GPU与CPU技术叠加,让Token理解上限不断提升,AI能记住整本书的逻辑

计费更合理:从按Token用量收费变成按有效信息、服务质量收费。就像当年手机短信按条收费,后来变为包月套餐

垂直领域定制:医疗、法律、代码等行业,会出现专用的分词规则,处理更精准

七、看懂Token创业更靠谱

很多人用AI,只关心问什么、答什么,却不知道背后的Token逻辑。但一旦你懂了Token,你就懂了AI的成本、能力和未来。

想省钱?控制输入Token,别发没用的废话。想用好AI?了解它的Token上限,别让它“断片”。想抓住AI产业机会?看懂Token背后的产业链逻辑——你的创业之路才算真正跨入门槛。

未来,Token会像水一样便宜,但理解它的人,永远走在前列。(原创南方海金所)

分享到:
網友評論

10 條評論

所有評論
顯示更多評論

「美中報道」電子版

下載「美中報導」APP