佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

搜索
查看: 120|回复: 1

每个token 记住多少

[复制链接]
发表于 27-4-2026 05:32 PM 来自手机 | 显示全部楼层 |阅读模式
在一次訪談中,Andrej Karpathy 提出了一個逐漸受到關注的觀點:未來的大語言模型,未必會持續走向更大規模,反而可能朝向更小、更精煉的方向發展。他指出,目前模型之所以動輒需要數百億甚至上兆參數,很大程度並不是因為推理能力需要這麼大的容量,而是因為訓練資料本身充滿雜訊

現今多數模型都是從網路資料中學習,而這些資料包含大量低品質內容,例如破碎的 HTML、論壇留言、重複文本,甚至是其他 AI 生成的內容。這些資訊雖然數量龐大,但真正具備知識密度與推理價值的部分其實有限,導致模型必須用大量參數去「壓縮並記住」這些雜亂內容,形成一種效率偏低的狀態。也因此,有人用「壓縮率很低」來形容這種現象,例如每個 token 分配到的資訊量非常有限,模型更像是在記住一個模糊的整體印象,而不是精確理解

在這樣的背景下,近來開始出現一種更激進但具有啟發性的說法:如果訓練資料能夠大幅清洗,只保留高品質內容,那麼模型規模可能不需要這麼大,甚至有機會將參數量壓縮到約 10 億等級,同時維持相當程度的能力。這樣的說法雖然帶有一定程度的推論與放大,但它點出了一個核心方向——影響模型表現的關鍵,不只是參數規模,還包括資料品質與資訊密度

Karpathy 也進一步提出一個架構上的想法:將模型拆分為兩個部分。一個是較小的「認知核心」,專注於推理與問題解決;另一個則是外部記憶系統,用來存放事實性資訊,並在需要時查詢。這樣的設計其實更接近人類的學習方式——我們不會記住所有細節,而是掌握思考方法,並在需要時查找資料

這種思路也與近年 RAG(Retrieval-Augmented Generation)等方法不謀而合。過去常被視為補強手段的外部知識檢索,現在反而可能成為主要架構的一部分。同時,模型效率的提升也已經在某些案例中出現,例如較小規模但經過優化的模型,已能在部分任務上超越早期更大的模型,顯示「更小但更乾淨」的方向具備實際潛力

如果這樣的趨勢成立,未來的一個重要變化是:高品質模型可能不再完全依賴大型資料中心,而是能在本地設備上運行。這不僅影響技術發展方向,也可能重新分配產業競爭的重心——從單純堆疊算力與參數,轉向資料品質、模型設計,以及系統整合能力

#1Bmodel
#karpathy
回复

使用道具 举报


ADVERTISEMENT

发表于 28-4-2026 09:56 AM | 显示全部楼层

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 28-4-2026 02:37 PM , Processed in 0.056497 second(s), 11 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表