Re: [新闻] 成本低廉 中国AI初创DeepSeek震撼硅谷

楼主: kinda (天天)   2025-01-27 18:55:59
前文恕删
: 据报导,DeepSeek仅用2048片H800显示卡 (GPU)、耗时两个月,就训练出了一个6710亿参
: 数的DeepSeek-V3。相较于Meta训练参数量4050亿的Llama 3,用了1万6384片更强的H100
: 显示卡,花了54天。DeepSeek的训练效率提升了11倍。
这比法很不公平
12/6 Meta 免费放出蒸馏过的 llama 3.3 70B
很多项目效能接近llama 3.1 405B
12/27 Deepseek V3 公开
看起来 deepseek V3 快速导入了新开源模型
变强是因为Meta帮他训练+蒸馏大模型
中文强是因为蒸馏了阿里巴巴Qwen2.5模型
训练量少只是因为不用训练大模型
随便搜一下
专家系统 MoE 1994年就有论文(MIT)
蒸馏模型 2015年的论文(Google)
专家系统 + 蒸馏模型2022年有论文(Microsoft)
都不是什么新东西
新闻中跟gpt-4o和llama 3.1 405B比只是行销手段
如果跟llama 3.3 70B比 两者效能相当
预测花费约少30%
deepseek v3就只是优化/特化的小改版
资料来源:
DeepSeek-V3 vs GPT-4o vs Llama 3.3 70B
https://tinyurl.com/46b2anf7

Links booklink

Contact Us: admin [ a t ] ucptt.com