佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

搜索
查看: 93|回复: 1

Anthropic的「非英文稅」最高;李宏彦当年做了什么?

[复制链接]
发表于 1-5-2026 09:45 AM 来自手机 | 显示全部楼层 |阅读模式
【「非英文」吃啞巴虧 AI分詞器存在「語言歧視」?】
AI研究員Aran Komatsuzaki昨日公布了一項針對主流大模型分詞工具(tokenizer)的橫評結果,揭示了Tokenizer存在「語言歧視」:非英語用戶在使用同一模型時,實際消耗的token數遠多於英語用戶,相當於被悄悄征收了一筆「非英文稅」。
他將Rich Sutton的知名論文《The Bitter Lesson》翻譯成9種語言,並分別餵入6家模型的tokenizer,以英文原文在OpenAI分詞工具上的token數為1倍基準,測量各語言在不同模型上的消耗倍數。
結果顯示,同樣的內容用中文提問,Claude的token消耗達到基準的1.71倍,而OpenAI僅為1.15倍。印地語在Claude上的情況更為突出,token消耗超過基準的3.24倍,阿拉伯語也達到2.86倍。
6家模型橫評中,Anthropic的「非英文稅」最高,Kimi次之;Gemini和Qwen的非英文稅最低。Komatsuzaki指出,分詞效率取決於模型訓練數據中各語言的占比:英文數據量大,英文詞彙被高效壓縮;非英文數據較少,被切得更碎。
回复

使用道具 举报


ADVERTISEMENT

发表于 2-5-2026 11:14 AM | 显示全部楼层
现在的 Ai 可以用中文看英文,用英文看中文。
我常用的 gemini 和 gpt 他们都很会。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT


本周最热论坛帖子本周最热论坛帖子

ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 2-5-2026 04:58 PM , Processed in 0.044329 second(s), 11 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表