Re: [新闻] DeepSeek 遇大规模网络攻击，暂时只支援 chesterhe PTT批踢踢实业坊

Re: [新闻] DeepSeek 遇大规模网络攻击，暂时只支援

楼主: chesterhe (chesterhe) 2025-01-29 17:26:08

※ 引述《WinNOKIA (海神)》之铭言：
: 1. DeepSeek创办人梁文锋，少年股神变AI大神
: 2. 纽约时报指出，DeepSeek是由中国对冲基金幻方量化（High-Flyer）创办
: 3. DeepSeek 宣称，训练成本仅 557.6 万美元，几乎是其他科技巨头大型语言模型的十
: 分之一成本，这个费用也差不多是一位 AI 主管的年薪而已。
: 综合以上媒体报导与揭露来看，DeepSeek是什么状况，不就很清楚了吗？
Musk赞同投资公司Atreides Management合伙人兼资讯长贝克（Gavin Baker）在X提到
DeepSeek的R1低成本来自在训练和推理效率上，取得了真正的算法突破
例如 FP8 训练、MLA（机器学习加速）和多 token 预测。
训练过程中涉及大量的知识蒸馏（distillation）
这意味着在没有无限制存取 GPT-4o 和 o1 的情况下，这项训练几乎不可能完成。
并提出质疑对中国限制最先进 GPU 的出口，却不阻止其蒸馏美国的顶尖 AI 模型
这基本上让出口限制变得毫无意义
AI 基础设施领域的现有赢家面临的最大风险是
两年内，R1的蒸馏版本可能会在高端智慧型手机上运行
Musk称AJ will be everywhere.(AJ应为笔误AI)
总之DeepSeek推出的模型低成本除了技术上突破外，很大基础是建立在GPT
但在高阶GPU管制下，要透过训练超越OpenAI是不可能的
而且如果之后OpenAI防堵知识蒸馏，连推新版本都有困难
所以吹牛大赛大概也差不多该接近尾声了
那竞争布局可能为何? GPT给了答案

“50B AI”指的是一个拥有500亿个参数的大型语言模型（LLM）
相当于 GPT-3.5 的规模
另川普于 2025 年 1 月 21 日发布启动5000 亿美元“Stargate”（星际之门）
人工智能（AI）计画。参与的公司包括 OpenAI、软银和甲骨文。
而 DeepSeek 则于 2025 年 1 月 20 日推出了其新模型 “DeepSeek-R1”。
要说巧合也太巧，R1推出目的大概率除了宣示要走向AI设备端，防堵OpenAI垄断外
就是政治上的大外宣，中国可以用较少资本训练出竞争级别的AI
甚至影响美国AI产业的投资者信心，改变资本流向

作者: herculus6502 (金麟岂是池中物) 2025-01-29 17:32:00

铲子商笑而不语

作者: s56565566123 (OnlyRumble) 2025-01-29 18:09:00

特准备崩烂

作者: dongdong0405 (聿水) 2025-01-29 18:25:00

这样听起来GG还是最后的赢家

作者: SpursDynasty (SpursDynasty) 2025-01-29 18:34:00

AIPC喷？

作者: turndown4wat (wat) 2025-01-29 19:01:00

手机跑得动这个?

继续阅读

[心得] 探讨无脑硬件堆算力是不是到尽头了a0808996 Re: [新闻] 阿里巴巴发布AI模型，声称超越DeepSeekV3cpblgu Re: [请益] 为什么中国越来越强？oion13272613 [新闻] 川普再提对台课关税，最高恐达 100%WinNOKIA [新闻] 阿里巴巴发布AI模型，声称超越DeepSeekV3TyuzuChou [新闻] 彭博：微软调查DeepSeek相关组织是否不win8719 Re: [新闻] DeepSeek 遇大规模网络攻击，暂时只支援lon0623 [新闻] OpenAI发表客制化ChatGPT Gov 供美国政府strlen [新闻] 中国多名业内人士质疑DeepSeeksunbysea [情报] 特斯拉无人驾驶出厂four5