佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

搜索
查看: 75|回复: 1

G A N, O(N^2)

[复制链接]
发表于 13-6-2026 06:36 PM 来自手机 | 显示全部楼层 |阅读模式
放心吧!结论是 GAN 离不开 辉达GPU,伤不了 台湾人荷包。

(1)跑去fengshui123.org 发过一个帖子。探讨了 AI,不班门弄斧。长话短说, 其实也没什么了不起,

跟 2004年 I,Robot 的 主角 运存2套系统,应该有人会听明白。

(2) Transformer 框架 注意力机制 没有人类要解决。

For an input with n tokens, this requires calculating n² pairwise relationships, creating an \(\mathcal{O}(n^2)\) computational and memory cost.

堆 记忆体 不是办法,只婊 不只本。

物理极限,哪来那么多空间。

(3)相传古印度宰相西萨(Sissa)发明了国际象棋,国王舍罕王非常高兴,决定重赏他。宰相只提出了一个看似微不足道的请求:

在棋盘的第1个格子放 1 粒米第2个格子放 2 粒米第3个格子放 4 粒米每一个格子放的米数都是前一个格子的 2 倍,以此类推,直到放满 64 个格子。惊人的数学结果国王最初爽快地答应了,但他很快发现自己根本付不起这笔赏赐。

因为这是一个等比数列的求和问题,随着格子的增加,数字呈现爆发式增长:

前 10 个格子:只需 1,023 粒米
第 30 个格子:超过 5.3 亿粒米

填满所有 64 个格子:总共需要 2⁶⁴ - 1 = 18,446,744,073,709,551,615 粒米

EH8h3.jpg



回复

使用道具 举报


ADVERTISEMENT

 楼主| 发表于 13-6-2026 07:05 PM 来自手机 | 显示全部楼层
O(N² )
1000 token = 10⁶
1000000 token = 10¹²

实际 FLOPs 通常是:O(N² d)
其中 d 是 hidden dimension。

例如:N=10^6, d=8192

则计算量接近:

10^12×8192≈8.2×10^15

约 8 quadrillion operations(千万亿级)。

这也是为什么传统 Transformer 很难直接处理 100 万 token 上下文!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 13-6-2026 09:59 PM , Processed in 0.045151 second(s), 9 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表