阿里巴巴也发表新AI 号称赢过DeepSeek V3
ETToday 记者蔡绍坚/综合报导
中国大陆新创AI公司DeepSeek近期发表的两款模型受到全球关注,阿里巴巴旗下的阿里云也
紧跟其后发表了全新的“通义千问”Qwen 2.5-Max模型,并声称在测试中的表现超越了Deep
Seek V3。
据介绍,通义千问Qwen 2.5-Max是一款MoE模型,使用超过20兆token的预训练数据及精心设
计的后训练方案进行训练。
阿里云直接对比了指令模型的性能表现,比较的对象包括DeepSeek V3、GPT-4o和Claude-3.
5-Sonnet。
在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond 等基准测试中,Qwen2.5-Max的
表现超越了 DeepSeekV3,同时在MMLU-Pro等其他评估中也展现出了极具竞争力的成绩。
在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模
型,阿里云将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模
型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。
对比结果显示,Qwen2.5-Max的基座模型在大多数基准测试中都展现出了显著的优势。
研发团队表示,他们相信,随着后训练技术的不断进步,下一个版本的Qwen2.5-Max将会达
到更高的水平。
目前,用户可透过API的方式访问Qwen 2.5-Max,或登入Qwen Chat进行体验,例如直接与模
型对话,或使用 artifacts、搜索等功能。
https://bit.ly/42ssBF8