|
查看: 146|回复: 4
|
Anthropic的「非英文稅」最高;李宏彦当年做了什么?
[复制链接]
|
|
|
【「非英文」吃啞巴虧 AI分詞器存在「語言歧視」?】
AI研究員Aran Komatsuzaki昨日公布了一項針對主流大模型分詞工具(tokenizer)的橫評結果,揭示了Tokenizer存在「語言歧視」:非英語用戶在使用同一模型時,實際消耗的token數遠多於英語用戶,相當於被悄悄征收了一筆「非英文稅」。
他將Rich Sutton的知名論文《The Bitter Lesson》翻譯成9種語言,並分別餵入6家模型的tokenizer,以英文原文在OpenAI分詞工具上的token數為1倍基準,測量各語言在不同模型上的消耗倍數。
結果顯示,同樣的內容用中文提問,Claude的token消耗達到基準的1.71倍,而OpenAI僅為1.15倍。印地語在Claude上的情況更為突出,token消耗超過基準的3.24倍,阿拉伯語也達到2.86倍。
6家模型橫評中,Anthropic的「非英文稅」最高,Kimi次之;Gemini和Qwen的非英文稅最低。Komatsuzaki指出,分詞效率取決於模型訓練數據中各語言的占比:英文數據量大,英文詞彙被高效壓縮;非英文數據較少,被切得更碎。
|
|
|
|
|
|
|
|
|
|
|
发表于 2-5-2026 11:14 AM
|
显示全部楼层
现在的 Ai 可以用中文看英文,用英文看中文。
我常用的 gemini 和 gpt 他们都很会。 |
|
|
|
|
|
|
|
|
|
|

楼主 |
发表于 2-5-2026 05:57 PM
来自手机
|
显示全部楼层
使用者 发表于 2-5-2026 11:14 AM
现在的 Ai 可以用中文看英文,用英文看中文。
我常用的 gemini 和 gpt 他们都很会。 ...
中文字节 由 2bytes 组成 |
|
|
|
|
|
|
|
|
|
|
发表于 2-5-2026 06:24 PM
|
显示全部楼层
Anthropic的顶尖华人科学家都跑到7788了吧~
|
|
|
|
|
|
|
|
|
|
|
发表于 2-5-2026 11:27 PM
|
显示全部楼层
|
非英文税是真的存在,Claude 3.5 中文确实不如 GPT-4o 流畅。不过最近 DeepSeek V3 和 Qwen 2.5 在这些方面做得不错,国产模型进步很快。李宏彦当年创立百度的故事其实挺有意思的,搜索引擎在中文本土化这块他确实走对了路。 |
|
|
|
|
|
|
|
|
| |
本周最热论坛帖子
|