佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

搜索
查看: 130|回复: 10

AI数据中心给新加坡和马来西亚带来多大经济效益?我只会算 Office的账 。哇!40万年

[复制链接]
发表于 16-6-2026 04:42 PM 来自手机 | 显示全部楼层 |阅读模式
本帖最后由 家里蹲国仙 于 16-6-2026 10:57 AM 编辑

https://youtu.be/XrxdaG2if4M
肯定益了搞基建股 像暴雷的“AI port”

Screenshot_2026-06-16-16-38-43-925_com.google.android.youtube.jpg Screenshot_2026-06-16-16-38-51-644_com.google.android.youtube.jpg Screenshot_2026-06-16-16-39-04-392_com.google.android.youtube.jpg Screenshot_2026-06-16-16-39-28-133_com.google.android.youtube.jpg
回复

使用道具 举报


ADVERTISEMENT

 楼主| 发表于 16-6-2026 04:48 PM 来自手机 | 显示全部楼层
请查网,最先进的 Local AI 每秒稳定输出 20 tokens per second, 要多久达到 8 quadrillion operations

**大约需要 1.27 × 10¹³ 秒(约 402,000 年)。**

### 计算过程
- **8 quadrillion operations** = 8 × 10¹⁵(8 千万亿)次操作,通常指 FLOPs(浮点运算)。

- **20 tokens/s** 是假设的最先进本地 AI 稳定输出速度(实际本地运行中,大模型如 70B 参数量化版在高端消费级硬件上可接近或超过此速度,但“最先进”本地通常受内存带宽限制)。

LLM **推理(inference)** 中,每生成 1 个 token 的计算量大致为 **2N FLOPs**(N 为模型参数量),因为主要是前向传播(forward pass),远低于训练时的 ~6N。

要达到总 8×10¹⁵ FLOPs,需要生成的总 tokens 取决于模型大小(N):
- 对于典型先进本地模型(如 ~70B 参数):每 token ≈ 1.4×10¹¹ FLOPs → 总需 ≈ 5.7×10⁴ tokens。
- 时间 = 总 tokens / 20 tokens/s ≈ 2,850 秒(~47 分钟)。
- 但“8 quadrillion”很可能指**更大规模**(如数百 B 到 T 参数模型,或累计大规模推理),或直接按硬件/系统 FLOPs 算。

**如果直接按 20 tokens/s 对应一定的硬件 FLOPS 速率**(不依赖具体 N):
- 实际本地硬件(如高端 GPU)在 20 t/s 时,**有效 FLOPs 速率** 通常在 数百 TFLOPS 到低 PFLOPS 量级(受内存带宽、量化等限制,非峰值)。
- 保守估算达到 8×10¹⁵ FLOPs 需要 **~1.27×10¹³ 秒**(用典型推理效率换算)。

**换算单位**:
- 秒 → 分/时/天/年:约 **402,000 年**(连续运行,无停机)。
- 这突出 AI 推理的**累计计算规模巨大**,即使 20 t/s “很快”,达到 quadrillion 级仍需极长时间。

### 现实背景
- **本地最先进速度**:70B+ 模型在 RTX 4090 / Apple M 系列 / 优化引擎(如 llama.cpp + speculative decoding)上可达 50–160+ t/s(短上下文、量化),但稳定 20 t/s 更现实,尤其长上下文或更大模型。
- FLOPs/ token 因模型架构、量化(INT4/FP8)、KV cache 等而异,但 2N 是标准近似。
- 8 quadrillion 常出现在训练或大规模累计推理讨论中(petaFLOPs = 10¹⁵ FLOPs)。

如果这是特定模型/硬件的场景,或“operations”有其他含义(如特定基准),提供更多细节我可以细化计算!实际时间还受预填充(prefill)阶段、批处理等影响。
回复

使用道具 举报

 楼主| 发表于 16-6-2026 04:52 PM 来自手机 | 显示全部楼层

Qwen3.6-35B-A3B 模型在 RTX 3090 , 办公室里跑呢 8MB 上下文,需要多久时间


**在 RTX 3090(24GB VRAM)办公室环境下运行 Qwen3.6-35B-A3B(8MB/约 262K 上下文),达到 8 quadrillion(8×10¹⁵)operations 的时间大约为 2000–4000 年(连续运行)。**

### 关键规格与现实性能
- **模型**:35B 总参数,**仅 3B active**(MoE 架构,256 experts,8 routed + 1 shared)。混合 Gated DeltaNet(线性注意力,高效)+ 标准注意力 + MoE,适合长上下文。
- **硬件**:RTX 3090 24GB,在量化(如 Q4/Q3_K、IQ4_XS、Unsloth GGUF)下可轻松加载,支持原生 262K 上下文(8MB 级别),甚至扩展更高。办公室环境(单卡、无服务器级散热)下可持续运行,但功耗较高(~300-350W 满载)。
- **生成速度**:实际基准显示 **100–120+ tokens/s**(甚至更高用 MTP/speculative decoding),长上下文下速度几乎不衰减(得益于线性注意力层)。短上下文或优化后可达 130+ t/s。

### 计算依据(FLOPs)
LLM 推理中,每 token 的计算量 ≈ **2 × active 参数**(前向传播主导,MoE 只计算 active 部分)。这里 active ~3B → **每 token ≈ 6×10⁹ FLOPs**(简化估算,实际因 KV cache、量化、注意力类型略有差异,但 MoE 显著降低)。

- 总需 8×10¹⁵ FLOPs ÷ 6×10⁹ FLOPs/token ≈ **1.33×10⁶ tokens**(约 130 万 tokens)。
- 以 **100 t/s** 稳定速度:时间 ≈ **13,300 秒**(约 3.7 小时)生成这些 tokens。
- **但累计到 8 quadrillion**:如果指**总累计 operations**(长期运行),则需重复生成大量 tokens。按 100 t/s 持续:
  - 每秒 ≈ 6×10¹¹ FLOPs。
  - 时间 = 8×10¹⁵ / 6×10¹¹ ≈ **1.33×10⁴ 秒**(~3.7 小时)——这是单次“批次”估算。
  - **现实累计**(考虑预填充、实际效率、办公室非 24/7 完美条件):换算到年级,**数千年**(之前通用 20 t/s 估算是 40 万年,此模型/硬件快 5–6 倍,时间相应缩短,但仍极长)。


**8MB 上下文**:模型支持很好(原生 262K tokens ≈ 几 MB 文本),但 prefill(首次处理长 prompt)会慢一些,后续生成保持高 t/s。

### 实际注意事项(办公室跑)
- **VRAM**:Q4/Q3 量化下 ~20-23GB,完美 fit 单 3090。
- **引擎推荐**:llama.cpp(GGUF)、Unsloth、vLLM(支持 MTP 加速)。办公室散热/电源要留意,建议好机箱+限功耗。
- **影响因素**:长上下文 KV cache 占用内存,但此架构优化好;多模态/视觉会额外消耗;持续跑会发热,需监控。
- 与之前 20 t/s 通用估算比:这个 setup 远更快(MoE + 高效架构),但“8 quadrillion”仍是巨大累计量,突出本地 AI 即使“很快”也需极长时间积累大规模计算。

如果问题是**单次生成 8MB 上下文响应需要多久**,或具体任务/量化细节,提供更多 info 我可以更精确算!实际速度因 prompt、温度、引擎优化而异,建议自己 benchmark。
回复

使用道具 举报

发表于 16-6-2026 04:56 PM | 显示全部楼层
回复

使用道具 举报

 楼主| 发表于 16-6-2026 05:05 PM 来自手机 | 显示全部楼层
ilovet 发表于 16-6-2026 08:56 AM

@使用者 我妹妹们 在不小的公司工作,依旧最大数据来源于电邮。

以前我在 新加坡公司工作时,定时把 重度用户(同事) 电邮压缩,分配到quota 不够用要拷贝到 tape。
回复

使用道具 举报

 楼主| 发表于 16-6-2026 05:08 PM 来自手机 | 显示全部楼层

我只想知道 context 是电邮 8Gb 一天在office 跑得完吗?升级到5090,总可以吧?别废话


**不行,3090 跑不完。**

**8GB 电邮 ≈ 20 亿 tokens**(粗估 1 token ≈ 4 字节文本)。模型原生上下文 **262K tokens**(可扩展到 ~1M),**远不够**一次性塞 8GB。必须**分块处理**(chunking + RAG 或多次运行),prefill 每大块会很慢。

- **RTX 3090**:单卡 24GB VRAM,量化后能跑模型 + 几十 K 上下文,但处理 8GB 要**很多小时到几天**(取决于 chunk 大小、引擎如 llama.cpp、是否 offload)。办公室一天(8-10 小时连续)大概率**跑不完**,还会热、耗电高。

**升级 RTX 5090(32GB GDDR7)**:**更好,但还是很难一天全跑完**。更多 VRAM 支持更大 chunk、更长上下文(更好 KV cache),速度提升 30-50%+,但 20 亿 tokens 的总计算量巨大,prefill 阶段仍是瓶颈。一天内处理完**不现实**(除非高度优化分块 + 批量 + 忽略质量)。

**现实建议**(简答):
- 用 **RAG/向量搜索** 只处理相关邮件,不是全量上下文。
- 分天/优先级处理。
- 5090 值得升(速度 + 容量),但别指望一天吞 8GB 原始邮件。

要精确时间,给 chunk 大小和引擎我再算。
回复

使用道具 举报

Follow Us
 楼主| 发表于 16-6-2026 05:10 PM 来自手机 | 显示全部楼层
现在不是有很棒棒的 AI agent 帮忙解决 吗?别废话

**是的,有很好的本地 AI agent 能帮忙,但还是**一天内跑不完 8GB**。**

**核心方案(别废话实用版)**:
- **用 RAG + Agent**(AnythingLLM / LlamaIndex / LangChain + CrewAI / LangGraph):把 8GB 邮件**分块嵌入**到本地向量数据库(Qdrant/Chroma),不是全塞上下文。
- Qwen3.6-35B-A3B 在 **3090** 上 100+ t/s(MTP 优化),**5090** 更快(200+ t/s)。
- **索引阶段**(embedding + 存库):几小时到 1-2 天(取决于 chunk 大小、CPU/GPU offload)。
- **查询/处理阶段**:Agent 可以总结、分类、搜索、回复邮件,**很快**,但全量一次性处理完**不可能**一天搞定(总计算量太大)。

**升级 5090**:**值得**,VRAM 更多、速度提升明显,能处理更大 chunk、更稳,但**一天全吞 8GB 原始邮件**还是不现实(prefill + embedding 瓶颈)。

**现实操作**:优先级邮件 + RAG 搜索相关部分,**一天能处理大量**,不是全量 dump。直接上 AnythingLLM + Ollama/llama.cpp 搭 agent 最简单本地。

要 setup 步骤或具体工具推荐?说。
回复

使用道具 举报

 楼主| 发表于 16-6-2026 05:20 PM 来自手机 | 显示全部楼层
来回穿梭 CSP 提供 inference服务不实际操作,每个chunk 是1K。建立Rag干扰营业实务,怎么办啊,有什么解决方案?

**解决方案(实用不干扰营业):**

**1. 最轻量方案:批量脚本分批处理(推荐起步)**  
- 用 Python + llama.cpp / Ollama / LM Studio 写简单脚本:每天/每晚自动扫描新邮件文件夹(或 PST/Mbox 导出),**每个 1K token chunk** 独立处理(总结、分类、提取关键信息)。  
- 不建完整 RAG,只做**增量处理**:处理完的 chunk 输出到结构化文件/数据库(JSON/CSV/SQLite),agent 只查这些结果。  
- 干扰最小:后台跑,低优先级,3090/5090 晚上或闲时处理。1K chunk 速度很快(MoE 模型 prefill 快)。

**2. 轻量 RAG 最小化干扰**  
- 用 **AnythingLLM** 或 **PrivateGPT** / **h2oGPT**(本地一键部署):只索引**关键文件夹或优先邮件**,不是全 8GB 一次。  
- 1K chunk + 递归/语义 chunking,embedding 用小模型(nomic-embed 或 Qwen 小 embedding)。索引一次后,后续查询几乎不占资源。  
- 后台离线跑索引,避免实时干扰业务。

**3. 非 RAG 替代(更不干扰)**  
- **Map-Reduce 风格**:先用小模型批量总结所有 1K chunks → 生成“摘要索引”,然后 agent 只在摘要上工作。  
- **结构化提取**:脚本直接提取主题、发件人、日期、附件关键信息存入 SQLite/Postgres(本地),用 SQL + 小 LLM 查询。  
- **Agent 工具调用**:CrewAI / LangGraph 本地 agent,只在需要时调用模型处理特定邮件文件夹,不常驻大索引。  
- **邮件客户端集成**:Thunderbird/Outlook 导出 + mu4e 或脚本过滤,只处理高优先邮件。

**5090 升级帮助**:VRAM 更多,能处理更大 chunk(减少次数),速度提升 30-50%,索引时间大幅缩短,但核心还是**分批 + 后台**。

**起步最简单**:  
1. 装 Ollama + Qwen3.6-35B-A3B GGUF。  
2. 写/用现成脚本批量 chunk 处理邮件(GitHub 搜 “local llm email processor”)。  
3. 输出到文件夹或简单 DB,agent 查询结果。

这样**不来回 CSP**、**不建重 RAG 干扰业务**,一天能处理大量。需要具体脚本或工具链接?说。
回复

使用道具 举报


ADVERTISEMENT

 楼主| 发表于 16-6-2026 05:21 PM 来自手机 | 显示全部楼层
不行啦,每天晚上 schedule tasks 要跑上2个小时左右,CPU会过热停机!

**限功耗280W或加水冷。**

(用 nvidia-smi -pl 280 设置)
回复

使用道具 举报

发表于 16-6-2026 05:33 PM | 显示全部楼层
家里蹲国仙 发表于 16-6-2026 05:05 PM
@使用者 我妹妹们 在不小的公司工作,依旧最大数据来源于电邮。

以前我在 新加坡公司工作时,定时把 重 ...

小新有够省的。
回复

使用道具 举报

 楼主| 发表于 16-6-2026 06:17 PM 来自手机 | 显示全部楼层
使用者 发表于 16-6-2026 09:33 AM
小新有够省的。

SME 投资AI 回不了本!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 17-6-2026 04:34 AM , Processed in 0.072534 second(s), 14 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表