每个token 记住多少

aidj · 发表于 27-4-2026 05:32 PM

在一次訪談中，Andrej Karpathy 提出了一個逐漸受到關注的觀點：未來的大語言模型，未必會持續走向更大規模，反而可能朝向更小、更精煉的方向發展。他指出，目前模型之所以動輒需要數百億甚至上兆參數，很大程度並不是因為推理能力需要這麼大的容量，而是因為訓練資料本身充滿雜訊

現今多數模型都是從網路資料中學習，而這些資料包含大量低品質內容，例如破碎的 HTML、論壇留言、重複文本，甚至是其他 AI 生成的內容。這些資訊雖然數量龐大，但真正具備知識密度與推理價值的部分其實有限，導致模型必須用大量參數去「壓縮並記住」這些雜亂內容，形成一種效率偏低的狀態。也因此，有人用「壓縮率很低」來形容這種現象，例如每個 token 分配到的資訊量非常有限，模型更像是在記住一個模糊的整體印象，而不是精確理解

在這樣的背景下，近來開始出現一種更激進但具有啟發性的說法：如果訓練資料能夠大幅清洗，只保留高品質內容，那麼模型規模可能不需要這麼大，甚至有機會將參數量壓縮到約 10 億等級，同時維持相當程度的能力。這樣的說法雖然帶有一定程度的推論與放大，但它點出了一個核心方向——影響模型表現的關鍵，不只是參數規模，還包括資料品質與資訊密度

Karpathy 也進一步提出一個架構上的想法：將模型拆分為兩個部分。一個是較小的「認知核心」，專注於推理與問題解決；另一個則是外部記憶系統，用來存放事實性資訊，並在需要時查詢。這樣的設計其實更接近人類的學習方式——我們不會記住所有細節，而是掌握思考方法，並在需要時查找資料

這種思路也與近年 RAG（Retrieval-Augmented Generation）等方法不謀而合。過去常被視為補強手段的外部知識檢索，現在反而可能成為主要架構的一部分。同時，模型效率的提升也已經在某些案例中出現，例如較小規模但經過優化的模型，已能在部分任務上超越早期更大的模型，顯示「更小但更乾淨」的方向具備實際潛力

如果這樣的趨勢成立，未來的一個重要變化是：高品質模型可能不再完全依賴大型資料中心，而是能在本地設備上運行。這不僅影響技術發展方向，也可能重新分配產業競爭的重心——從單純堆疊算力與參數，轉向資料品質、模型設計，以及系統整合能力

#1Bmodel
#karpathy

使用者 · 发表于 28-4-2026 09:56 AM

		自动登录	找回密码
密码			注册

每个token 记住多少

所属分类: 电脑手机

浏览过的版块