OpenAI o3-mini,是推理系列中最新、最具成本效益的模型,现已在 ChatGPT 和 API 中提供。这款功能强大且快速的模型于 2024 年 12 月进行了预览,它突破了小型模型所能实现的界限,提供了卓越的 STEM 功能(尤其擅长科学、数学和编码),同时保持了 OpenAI o1-mini 的低成本和低延迟。
官方免费使用:【链接直达】
进入打开里面的推荐按钮即可,就可以直接开启 OpenAI o3-mini 模型深度推理功能!
快速、强大且针对 STEM 推理进行了优化
与前身 OpenAI o1 类似,OpenAI o3-mini 已针对 STEM 推理进行了优化。o3-mini 的中等推理努力与 o1 在数学、编码和科学方面的表现相当,同时响应速度更快。专家测试人员的评估表明,与 OpenAI o1-mini 相比,o3-mini 的答案更准确、更清晰,推理能力更强。测试人员在 56% 的时间里更喜欢 o3-mini 的回答,并观察到在困难的现实问题上重大错误减少了 39%。在中等推理努力下,o3-mini 在一些最具挑战性的推理和智力评估(包括 AIME 和 GPQA)上的表现与 o1 相当。
竞赛数学(AIME 2024)
博士级科学问题(GPQA Diamond)
竞赛规则(Codeforces)
软件工程(SWE-bench 验证)
OpenAI o3-mini 的智能可与 OpenAI o1 媲美,但性能更快、效率更高。除了上述 STEM 评估之外,o3-mini 还在中等推理工作量的额外数学和事实性评估中表现出色。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。
o1-mini 与 o3-mini 之间的延迟比较(中等)
我们用来教 OpenAI o3-mini 安全响应的关键技术之一是审慎对齐,即在回答用户提示之前,我们训练模型推理人类编写的安全规范。与 OpenAI o1 类似,我们发现 o3-mini 在具有挑战性的安全性和越狱评估方面明显超越了 GPT-4o。在部署之前,我们仔细评估了 o3-mini 的安全风险,采用了与 o1 相同的准备、外部红队和安全评估方法。我们感谢申请在早期访问中测试 o3-mini 的安全测试人员。以下评估的详细信息以及对潜在风险和我们缓解措施有效性的全面解释可在o3-mini 系统卡中找到。
OpenAI o3-mini 的发布标志着 OpenAI 向突破高性价比智能界限的使命又迈进了一步。通过优化 STEM 领域的推理并保持低成本,我们让高质量的人工智能更加触手可及。该模型延续了我们降低智能成本的记录——自推出 GPT-4 以来,每个代币的价格降低了 95%——同时保持了顶级的推理能力。随着人工智能的普及,我们仍致力于走在前沿,构建能够平衡智能、效率和安全性的大规模模型。