术语入门:分词器(Tokenizer)与中文成本

Author Info

AI 技术文摘编辑部

内容研究与技术审校

负责选题策划、技术复现、事实核对与勘误维护。编辑部坚持“可复现、可核对、可追溯”的写作原则,重点覆盖 AI 工程实践、工具评测与行业动态解读。

#Prompt 工程 #RAG 检索 #模型评测 #AI 产品合规

token 是什么

在大语言模型里,文本会先被分词器切分为 token 序列。token 不一定是「一个字」,可能是子词、片段或符号组合。不同语言与不同分词器会产生不同的 token 数。

为什么中文往往「更贵」

很多计费与上下文限制按 token 计算。若中文同样语义需要更多 token,那么单次请求成本与延迟都会上升。具体比例取决于模型与分词器,不能凭感觉估算。

与产品文案的关系

在 UI 与提示中减少冗余、避免重复粘贴长段文本,不仅是体验问题,也是成本问题。对高频模板,考虑固定模板 + 变量替换,减少重复 token。

上下文窗口与 token 预算

上下文窗口越大,并不意味着你应该塞满它。更多 token 通常意味着更高计算与更高成本。把「必须进入上下文」的信息与「可以检索」的信息分开,是常见优化路径。

常见误区:把“字数”当成“token 数”

中文场景里,很多团队会用字数估算 token,结果误差很大。原因在于标点、数字、英文缩写、代码片段都会影响分词方式。更稳妥的方式是使用目标模型官方 tokenizer 做离线抽样,得到真实区间,再据此做预算和限流策略。

可以马上执行的优化动作

如果你要快速降本,可以从三件事开始:第一,清理重复上下文;第二,把超长背景信息改为检索引用;第三,为固定模板做压缩写法并复用缓存。通常这三步就能在不明显影响质量的情况下,把 token 开销降低一截。

团队协作中的常见坑

在实际项目里,产品、算法、后端往往各自使用不同的“长度口径”,导致评估结果相互冲突。建议统一以 token 作为计算口径,同时保留字符数作为可读指标。只要口径统一,很多关于“到底贵不贵、慢不慢”的争论会立即减少。

最后提醒

token 预算不是一次性配置,而是持续运营指标。模型升级、提示改版、业务文案变化都可能让 token 消耗上涨。把 token 监控纳入周报,比月底看账单再追责更有效。

小结

理解 token 不是为了让每个人都成为算法专家,而是为了让成本、延迟与提示设计在同一对话里被讨论。