Mistral Small 3模型发布 比OpenAI和Google类似产品更快更好
欧洲领先的 人工智能公司之一 Mistral AI 推出了一款名为 Mistral Small 3 的新模型
。这是一个包含 240 亿参数的模型,但与 Llama 3.3 70B 和 Qwen 32B 等大型模型相当
(至少在 MMLU-Pro 基准测试中)。它不仅运行速度与 Llama 3.3 70B 不相上下,而且
速度更快。
ChatGPT 上最常用的模型是 GPT-4o mini,它是使用者用完 GPT-4o 请求后的备用模型
。 Mistral Small 3 的效能比这个 OpenAI 模型更好,据说延迟也更低。
Mistral AI 介绍说:"我们在Apache 2.0 下发布了预训练和指令调整的检查点。检查点
可以作为加速进展的强大基础。需要注意的是Mistral Small 3 既未使用RL 也未使用合
成资料进行训练,因此与Deepseek R1(一项伟大而互补的开源技术!)等模型相比,它
在模型制作流程中处于较早阶段。采用和定制它。
作为一个偏小型的模型,如果你的电脑配置较高,也有可能在自己的电脑上本地运行它
。 Mistral AI 表示,它可以在单块NVIDIA RTX 4090 显示卡或配备 32GB 内存的
MacBook 上运行。
虽然该机型在 MMLU-Pro 基准测试中的表现优于上述其他机型,但它并不总是人类评估人
员的首选。 Mistral 在一组超过 1k 的专有编码和通用提示中将其模型与其他模型进行
了比较。研究发现,与 Gemma-2 27B 和 Qwen-32B 相比,Mistral Small 3 是首选方案
,但与 Llama 3.3 70B 和 GPT-4o mini 相比,Mistral Small 3 的首选度较低。