LLM 的 Reasoning 能力让今后的操作系统调度层几乎毫无疑问的会发生翻天覆地的变化。
长期:端计算是必然,工程,供应链,半导体,模型运算,特定模型小型化等,3-5 年左右的时间
中期:熟悉调度层,函数调用,指令微调。
工程化 Langchain / LLamaIndex
- Retrieve / Rerank 【OS】
数据流:获取,展示,交互
隐私:Private Cloud Compute
Edge Compute 的自证悖论:
响应总时长 = 网络延时 + Inference 计算耗时
Generate 600 tokens:
- 云服务器 [10 倍算力,时间基准]:200 token/s,150 ms 单程网络延时
- 普通终端:20 token/s 计算
- Neural 增强终端:60 token/s
- Neural 增强节点【无限能耗】:100 token/s 计算,200 ms 单程网络延时
计算得出:
- Edge Compute = 0 + 30,000 ms = 30,000 ms
- Edge [Enhanced] Compute = 0 + 10,000 ms = 10,000 ms
- Private Cloud Compute = 400 ms [单次 roundtrip] + 6,000 ms = 6,400 ms
- Public Cloud Compute = 300 ms [单次 roundtrip] + 3,000ms = 3,300 ms
计算成本和隐私的话,家用 / 企业用算力中心。