[新闻] 谷歌Gemini 2.5升级“全能王”推理、程 qazxc1156892 PTT批踢踢实业坊

[新闻] 谷歌Gemini 2.5升级“全能王”推理、程

楼主: qazxc1156892 (william) 2025-06-06 17:31:45

新闻标题：谷歌Gemini 2.5升级“全能王”推理、程式皆拿榜首！辗压o3与Claude 4
钜亨网新闻中心 2025-06-06 15:10
谷歌 (GOOGL-US) 深夜携全新 Gemini 2.5 Pro 强势归来，仅用一个月碾压旧版 Gemini
2.5。数学、程式设计、推理全面封神，稳坐所有榜单第一名，全面领先竞争对手如 o3、
Claude 4 和 DeepSeek-R1 。
这次升级的 Gemini 2.5 Pro 在效能上展现出惊人的提升。其在整体 Elo 分数上提升了
24 分，尤其是在 Web Arena 上的 Elo 分数更是大幅跃升 35 分，达到 1443 分。
在 LMArena 排行榜上，其 Elo 分数跃升 24 分，达到 1470 分，稳居榜首，并在所有领
域都排名第一，这充分证明了其在处理复杂任务方面的强大能力。Google 官博介绍称，
这次发布的是 Gemini 2.5 Pro 的升级预览版，被誉为 Google 迄今为止最聪明的模型
。
此外，Gemini 2.5 Pro 无论是数学、程式设计还是推理能力，都刷新了业界的“最先进
水准”（SOTA），稳居所有榜单之首，彻底碾压了包括 o3、Claude 4 和 DeepSeek-R1
在内的所有竞争对手，为人工智能的发展树立了新的里程碑。
token 价格不变性价比极高
更令人振奋的是，尽管性能实现了质的飞跃，新版本 Gemini 2.5 Pro 的 token 价格却
保持不变，这使得其具备极高的性价比。与市场上的竞争对手相比，Gemini 2.5 Pro 的
输出价格仅为 o3 的四分之一，与 Claude 4 相比更是显著经济。
这对广大开发者和企业而言，无疑是一大利好消息，意味着他们能够以更低的成本获得顶
级的 AI 能力，加速创新应用开发和部署。
新版 Gemini 2.5 Pro (06-05) 还引入了多项创新功能，进一步提升了模型的可用性和开
发效率。其中最引人注目的便是高达 32k 的“思考预算”（Thinking Budget）功能，以
及改进的函数呼叫能力。
“思考预算”功能导入提升开发灵活性
这些新特性赋予了开发者更大的灵活性和精确度，使其能够更有效地控制模型运行的成本
和延迟，实现更为复杂和客制化的 AI 解决方案。根据 Google 官方部落格的介绍，此次
发布的 Gemini 2.5 Pro 是一个升级预览版，是 Google 迄今为止最聪明的模型，预计在
几周后将成为普遍可用的稳定版本，非常适合企业级应用，满足各行各业对高效能 AI 的
需求。
在程式设计领域，Gemini 2.5 Pro 的表现同样令人印象深刻。它在 Aider Polyglot 等
高难度程式设计基准测试中名列前茅，展现了卓越的程式码生成、理解和除错能力。
同时，在 GPQA 和被誉为“人类最后考试”（HLE）等极具挑战性的基准测试中，Gemini
2.5 Pro 也展现了顶尖性能。这些测试全面评估了模型的数学、科学、知识和推理能力，
其优异的表现再次证明了 Gemini 2.5 Pro 的综合实力。
此外，Google 也针对先前 2.5 Pro 版本的用户回馈进行了改进，显著提升了其风格和结
构，现在它能提供更有创意、格式更优的回答，使其在内容生成和交流互动方面更加自然
流畅。
目前，开发者已可透过 Google AI Studio 和 Vertex AI 中的 Gemini API 开始使用更
新的 2.5 Pro 进行开发。其便捷的存取方式和强大的功能，将极大地促进 AI 技术的应
用创新。同时，Gemini 2.5 Pro 也已在 Gemini App 中正式上线，让广大普通用户也能
体验到其尖端 AI 能力所带来的便利与智慧。
网友实测验证强大实力
为了验证 Gemini 2.5 Pro 在真实任务中的表现，众多网友纷纷进行了实测，结果令人惊
叹。一张“劈柴图”的广泛流传，暗示着业界普遍认为 Gemini 已是“兽中之王”。
在编码能力方面，其对 o3 和 Claude 4 的碾压已不再是空谈——新版 Gemini 2.5 Pro
成功通过了六边形物理模拟测试，证明了其在复杂物理环境建模和模拟方面的卓越能力。
更令人惊艳的是，它还能透过 Three.js 创造出逼真的 3D DNA 模型，展现出强大的图形
处理和视觉化能力。
资料科学家 Diego 进行了一项引人注目的测试：他让 Gemini 2.5 Pro 06-05 编写一段
Python 程式码，用于视觉化单行道中交通灯的工作原理，并要求车辆以随机速率进入。
程式码运行后的效果显示，动画整体精美，运行流畅，没有明显问题。
作为对比，GPT 4.5 生成的程式码效果则显得画面粗糙，车辆也不符合物理规律，这凸显
了 Gemini 2.5 Pro 在程式设计和模拟精确度方面的显著优势。Diego 先前也测试了 Cla
ude Sonnet 3.7 和 Grok 3，这些对比进一步巩固了 Gemini 2.5 Pro 在 AI 领域的领先
地位。
Google Gemini 2.5 Pro (06-05) 的发布，标志着 Google 在人工智能领域又迈出了坚实
的一步。其卓越的性能、高效的成本效益以及不断创新的功能，无疑将加速 AI 技术的普
及和应用。随着“李在明时代”的开启，我们预期 Google 将继续引领 AI 技术的发展，
为全球用户带来更多创新与便利。
新闻来源： https://reurl.cc/gRXDmb

继续阅读

Re: [讨论] 年薪200，朝九晚五，该换工作吗yorkhung [讨论] 为什么台湾人健忘没在台达跳楼事件生效？e0429529270 Re: [讨论] 年薪200，朝九晚五，该换工作吗ipad10gen [请益] UL 国际认证 AFEnogray [新闻]科技预测调查揭示跨领域趋势预测──日本stpiknow [讨论] 年薪200，朝九晚五，该换工作吗duckone Re: [转录] 日本人：日本科技已经完全落后于中国XFight Re: [转录] 日本人：日本科技已经完全落后于中国yokann [情报] 稳懋调薪2025 (Dcard)yokann [新闻]年轻不是本钱，分析：毕业生面临40年来最糟就业市场pl132