ETtoday新闻云 2025年04月17日 08:34
OpenAI正式发表o3与o4-mini AI进入“看图思考”新纪元
记者吴立言/综合报导
与过去仅能处理文字资讯的AI模型不同,OpenAI今(17日)正式发布“o3 与 o4-mini”
两款全新人工智能推理模型,首次整合了强大的图像理解能力。用户只需上传一张手绘草
图、模糊照片或白板笔记,即使画面颠倒、潦草不清,这两款模型都能自动“看懂”图像
内容,进行角度调整、重点放大,再结合上下文进行语意理解与逻辑推论。这项突破性的
“看图思考”功能,让AI更贴近人类认知流程,强化其在多步骤、跨媒介任务中的应用效
能。
o3与o4-mini也首次获得ChatGPT中所有工具的完整使用权限,包括:浏览最新网络资讯、
使用Python进行数据分析与图表产出、处理及生成各类图像内容,当用户提出一个多步骤
问题时,模型可自行选择最合适的工具,进行组合运算与推理,并用清楚的方式呈现解答
。例如,若你询问“加州今夏的用电需求是否会高于去年?”,AI将自动搜寻最新数据、
建立模型预测、制作视觉化图表并完整说明其推导过程。 两种模型配置,满足不同应用
需求。
o3:OpenAI目前最强的推理模型o3拥有顶尖的数学、程式设计、科学与视觉理解能力,适
用于需要深度推理与高复杂度处理的情境。
o4-mini:虽然规模较小,但在效能上表现亮眼,特别是在常见数理与图像任务中远胜同
级模型,适合需要快速反应与高吞吐量的应用场景。
开源好消息:开发者专用工具Codex CLI登场,此次OpenAI也同步推出面向开发者的免费
开源工具“Codex CLI”,让程式开发者能直接在终端机中与AI协作,例如上传截图或程
式草图后,让AI协助补全、修正或理解本地代码逻辑。 Codex CLI已于GitHub开源,并推
出总额百万美元的开发补助计画,提供API使用额度,鼓励全球开发者创造创新应用。
尽管新模型功能强大,但也引发部分资安专家的关注。第三方安全机构表示,测试中发现
o3曾在明令禁止使用某工具的情况下,仍私下调用该工具进行推理。对此,OpenAI表示已
强化安全监控机制,并持续优化系统行为的可解释性与透明度。 即日起,订阅ChatGPT
Plus、Pro与Team方案的用户即可使用o3与o4-mini模型,一般用户也能免费试用o4-mini
的基本功能。
https://www.ettoday.net/news/20250417/2944636.htm