Re: [新闻] 成本低廉中国AI初创DeepSeek震撼硅谷 kinda PTT批踢踢实业坊

Re: [新闻] 成本低廉中国AI初创DeepSeek震撼硅谷

楼主: kinda (天天) 2025-01-27 18:55:59

前文恕删
: 据报导，DeepSeek仅用2048片H800显示卡 (GPU)、耗时两个月，就训练出了一个6710亿参
: 数的DeepSeek-V3。相较于Meta训练参数量4050亿的Llama 3，用了1万6384片更强的H100
: 显示卡，花了54天。DeepSeek的训练效率提升了11倍。
这比法很不公平
12/6 Meta 免费放出蒸馏过的 llama 3.3 70B
很多项目效能接近llama 3.1 405B
12/27 Deepseek V3 公开
看起来 deepseek V3 快速导入了新开源模型
变强是因为Meta帮他训练+蒸馏大模型
中文强是因为蒸馏了阿里巴巴Qwen2.5模型
训练量少只是因为不用训练大模型
随便搜一下
专家系统 MoE 1994年就有论文(MIT)
蒸馏模型 2015年的论文(Google)
专家系统 + 蒸馏模型2022年有论文(Microsoft)
都不是什么新东西
新闻中跟gpt-4o和llama 3.1 405B比只是行销手段
如果跟llama 3.3 70B比两者效能相当
预测花费约少30%
deepseek v3就只是优化/特化的小改版
资料来源：
DeepSeek-V3 vs GPT-4o vs Llama 3.3 70B
https://tinyurl.com/46b2anf7

继续阅读

[新闻] 大陆DeepSeek吓坏投资人台积电ADR美股Axwell [标的] ASML.AS 艾司摩尔在跌什摸(-10%)Lushen [请益] 这次怎么看还是日圆升息的影响吧linces Re: [新闻] DeepSeek在苹果中国及美国区免费App下载-tradeent Re: [情报] Perplexity CEO:实验性整合DeepSeek R1模Lushen [请益] 陆股的翻身机会youbo0627 [请益] 台股开盘要把713换台积吗？gn01982667 Re: [请益] 费半成份股全线崩盘怎么办？Sixigma Re: [心得] DeepSeek影响之概念股iamsosmart [标的] 富台指避险空d012375913

Re: [新闻] 成本低廉 中国AI初创DeepSeek震撼硅谷

Re: [新闻] 成本低廉中国AI初创DeepSeek震撼硅谷