Anthropic的「非英文稅」最高；李宏彦当年做了什么？

aidj · 发表于 1-5-2026 09:45 AM

【「非英文」吃啞巴虧 AI分詞器存在「語言歧視」？】
AI研究員Aran Komatsuzaki昨日公布了一項針對主流大模型分詞工具（tokenizer）的橫評結果，揭示了Tokenizer存在「語言歧視」：非英語用戶在使用同一模型時，實際消耗的token數遠多於英語用戶，相當於被悄悄征收了一筆「非英文稅」。
他將Rich Sutton的知名論文《The Bitter Lesson》翻譯成9種語言，並分別餵入6家模型的tokenizer，以英文原文在OpenAI分詞工具上的token數為1倍基準，測量各語言在不同模型上的消耗倍數。
結果顯示，同樣的內容用中文提問，Claude的token消耗達到基準的1.71倍，而OpenAI僅為1.15倍。印地語在Claude上的情況更為突出，token消耗超過基準的3.24倍，阿拉伯語也達到2.86倍。
6家模型橫評中，Anthropic的「非英文稅」最高，Kimi次之；Gemini和Qwen的非英文稅最低。Komatsuzaki指出，分詞效率取決於模型訓練數據中各語言的占比：英文數據量大，英文詞彙被高效壓縮；非英文數據較少，被切得更碎。

使用者 · 发表于 2-5-2026 11:14 AM

现在的 Ai 可以用中文看英文，用英文看中文。
我常用的 gemini 和 gpt 他们都很会。

aidj · 发表于 2-5-2026 05:57 PM

使用者发表于 2-5-2026 11:14 AM
现在的 Ai 可以用中文看英文，用英文看中文。
我常用的 gemini 和 gpt 他们都很会。 ...

中文字节由 2bytes 组成

tornado · 发表于 2-5-2026 06:24 PM

Anthropic的顶尖华人科学家都跑到7788了吧~

diamond_heart · 发表于 2-5-2026 11:27 PM

非英文税是真的存在，Claude 3.5 中文确实不如 GPT-4o 流畅。不过最近 DeepSeek V3 和 Qwen 2.5 在这些方面做得不错，国产模型进步很快。李宏彦当年创立百度的故事其实挺有意思的，搜索引擎在中文本土化这块他确实走对了路。

		自动登录	找回密码
密码			注册

Anthropic的「非英文稅」最高；李宏彦当年做了什么？

所属分类: 谈天说地

浏览过的版块