Re: [新闻] DeepSeek 遇大规模网络攻击,暂时只支援

楼主: chesterhe (chesterhe)   2025-01-29 17:26:08
※ 引述《WinNOKIA (海神)》之铭言:
: 1. DeepSeek创办人梁文锋,少年股神变AI大神
: 2. 纽约时报指出,DeepSeek是由中国对冲基金幻方量化(High-Flyer)创办
: 3. DeepSeek 宣称,训练成本仅 557.6 万美元,几乎是其他科技巨头大型语言模型的十
: 分之一成本,这个费用也差不多是一位 AI 主管的年薪而已。
: 综合以上媒体报导与揭露来看,DeepSeek是什么状况,不就很清楚了吗?
Musk赞同投资公司Atreides Management合伙人兼资讯长贝克(Gavin Baker)在X提到
DeepSeek的R1低成本来自在训练和推理效率上,取得了真正的算法突破
例如 FP8 训练、MLA(机器学习加速)和多 token 预测。
训练过程中涉及大量的知识蒸馏(distillation)
这意味着在没有无限制存取 GPT-4o 和 o1 的情况下,这项训练几乎不可能完成。
并提出质疑对中国限制最先进 GPU 的出口,却不阻止其蒸馏美国的顶尖 AI 模型
这基本上让出口限制变得毫无意义
AI 基础设施领域的现有赢家面临的最大风险是
两年内,R1的蒸馏版本可能会在高端智慧型手机上运行
Musk称AJ will be everywhere.(AJ应为笔误AI)
总之DeepSeek推出的模型低成本除了技术上突破外,很大基础是建立在GPT
但在高阶GPU管制下,要透过训练超越OpenAI是不可能的
而且如果之后OpenAI防堵知识蒸馏,连推新版本都有困难
所以吹牛大赛大概也差不多该接近尾声了
那竞争布局可能为何? GPT给了答案
https://imgur.com/wNCJOYB
“50B AI”指的是一个拥有500亿个参数的大型语言模型(LLM)
相当于 GPT-3.5 的规模
另川普于 2025 年 1 月 21 日发布启动5000 亿美元“Stargate”(星际之门)
人工智能(AI)计画。参与的公司包括 OpenAI、软银 和 甲骨文。
而 DeepSeek 则于 2025 年 1 月 20 日推出了其新模型 “DeepSeek-R1”。
要说巧合也太巧,R1推出目的大概率除了宣示要走向AI设备端,防堵OpenAI垄断外
就是政治上的大外宣,中国可以用较少资本训练出竞争级别的AI
甚至影响美国AI产业的投资者信心,改变资本流向
作者: herculus6502 (金麟岂是池中物)   2025-01-29 17:32:00
铲子商笑而不语
作者: s56565566123 (OnlyRumble)   2025-01-29 18:09:00
特准备崩烂
作者: dongdong0405 (聿水)   2025-01-29 18:25:00
这样听起来GG还是最后的赢家
作者: SpursDynasty (SpursDynasty)   2025-01-29 18:34:00
AIPC喷?
作者: turndown4wat (wat)   2025-01-29 19:01:00
手机跑得动这个?

Links booklink

Contact Us: admin [ a t ] ucptt.com