谷歌发布 Gemini 2.5 Pro 模型，称其是一个「思考」模型专为复杂任务打造，它有多强大？

发布时间：

2025-03-26 15:38

阅读量：

Gemini 2.5 Pro Experimental 03-25

一句话总结：Google也要给OpenAI上强度了

24号DeepSeekV3教育OpenAI什么是好用又便宜的基础模型，25号Google也来给OpenAI上强度，什么是免费又好用的推理模型。

2.5Pro作为一个推理模型，速度还是挺快，测试的平均耗时控制在50秒。这速度虽然比不上自家flash thinking，但在一众推理模型里算快的。

在这个速度上，2.5Pro的成绩达到了85分的极限分，并且其稳定性相当好，中位分仅低1分(2%)。绝大部分题目在多次测试中都可以输出相似答案。这简直像个奇迹，之前稳定性最好的Sonnet3.7 中位分也要低6%。

测试时笔者选择在半个小时后跑第二遍，尽量避免工程上缓存造成的稳定假象。

具体来看，2.5Pro在很多题目上的表现可圈可点，比如#25算24点，他不但全对，并且每个算式还尝试了多种解法。其他计算题如#10水果热量，#22连续计算，得分都很高，2.5Pro很清楚自己在算什么，几乎没有幻觉。

在高难度题目上，之前大部分推理模型折戟，仅o1/o3能得分，这次2.5Pro也拿到不少分。如#23解密游戏， 2.5Pro快速找到了思路，一举突破。#24数字规律非常考验人类直觉，2.5Pro已经找到了一部分规律，但没能全对。对比其他低阶推理模型在这道题上几乎是盲猜。

但2.5Pro也不是没有问题，他的字符幻觉就比o3来的更多，如#11岛屿面积，#18字符迷宫，o3分数都更高。而2.5Pro的表现就很差。#30日记整理对输出有字数要求，2.5Pro也是目前输出字数远超要求的模型。

总体上，2.5Pro解题很有章法，比较少靠暴力穷举，对于难题和中等题目，基本都能一次性找对思路，知道该推理什么，计算什么。丢分也主要是数学上的细节，字符幻觉等大模型传统劣势。

目前这个形势，OpenAI压力确实非常大。

END