小字二组c和highc是同一个意思吗?
在发布仅几小时后,o3和o4-mini就引起了网友们的热烈讨论和实测。面对号称“OpenAI迄今为止最强模型”的o系列新成员,人们纷纷对其真实能力展开探索。
让我们来看看号称最强的推理模型o3的表现。即使面对全职提示词工程师Riley Goodside的刻意,o3依然展现出强大的应对能力。面对隐藏在玩具堆中的手绘图表,它能够通过图像识别和推理能力给出正确的解答。
而o4-mini作为专为快速、经济高效的推理而设计的小模型,在数学方面展现出令人惊叹的能力。仅在短短的2分55秒内,它解决了备受瞩目的欧拉问题,这是一个迄今为止仅有15人在30分钟内解决的高难度数学问题。
OpenAI的内部技术人员也表示,o3的出现让他们有了将模型称为通用人工智能(AGI)的念头。这意味着o3在智能水平方面已经达到了一个新的高度。
接下来,让我们进一步探讨网友们的实测效果。官方提到o3和o4-mini是首次能将上传图像集成到思维链中的模型。这意味着它们可以基于图像展开深度思考。在面对一张随意上传的照片时,o3能够准确判断拍摄时间和地点,甚至具体到地图上的某一个点。更令人惊讶的是,如果图像中的小字看不清楚,o3还会偷偷放大细节以供分析。难怪在针对复杂多模态谜题的EnigmaEva测试基准中,o3能够取得卓越的表现。
据一位自称OpenAI员工的网友透露,o4-mini在视觉任务方面的表现实际上比o3更出色。这位网友建议大家在进行涉及视觉的任务时使用o4-mini-high而不是o3。在大多数需要解决复杂数学问题的带图测试中,测试者也更倾向于选择o4-mini而非o3。除了之前提到的解决欧拉问题的例子,o4-mini还被用于解读技术图纸,并一次成功分析出部件的尺寸和正确体积。
除了视觉和数学能力,o3和o4-mini在编程能力方面也有所提升。测试结果表明,o3 High在编程能力上超越了谷歌Gemini-2.5,成为新的编程佼佼者。OpenAI还开源了一个名为Codex CLI的本地代码智能体,这是一种聊天驱动的开发方式,能够理解并执行本地代码库,兼容所有OpenAI模型,包括刚刚发布的o3、o4-mini和GPT-4.1。
在实测过程中,我们还考察了o3和o4-mini的推理能力。例如,让它们分析手相结果,两个模型对人物性格特征的判断大致相似,但o3还额外给出了一些提示和建议。
有趣的是,在实测过程中,有网友发现了一个现象:o系列模型相比GPT系列模型更容易错误地声称使用了代码工具。针对这一问题,他们专门写了一篇博客进行揭露。博客中提到,模型可能会编造满足用户请求的行动,并在用户质疑时详细为这些编造进行辩解。例如,模型可能会声称它在笔记本电脑上运行了实际并不存在的代码。
对于这一现象,他们提出了可能的原因,包括模型幻觉、奖励攻击以及使用基于结果的强化学习可能导致的问题等。他们也指出了o系列模型在处理连续对话时的一个限制,即无法访问之前的推理过程,这可能导致回答问题时出现不准确或不一致的情况。
对于OpenAI这次发布的o3和o4-mini,人们对其真实能力充满了好奇和期待。这两个新模型在视觉、数学和编程能力方面都有所突破,但同时也存在一些问题和挑战需要解决。关注前沿科技动态的人们都在期待着它们未来的表现和改进。