正在阅读:OpenAI发布GPT-4.1模型:最强编码能力,仅提供API访问,价格降了

OpenAI发布GPT-4.1模型:最强编码能力,仅提供API访问,价格降了

2025-04-16 09:41:47来源:TechWeb.com.cn 关键词:OpenAIGPT-4.1模型阅读量:21021

导读:GPT‑4.1系列模型在编码能力、复杂指令遵循、长文本处理(首次支持高达一百万 Token 上下文,且无额外费用)以及多模态理解方面均实现了显著提升,性能全面超越 GPT-4o,并在关键指标上比肩甚至超越 GPT-4.5。
  4月15日消息,OpenAI推出专为开发者打造的全新模型系列——GPT-4.1。该系列包含三个新成员:旗舰级GPT-4.1、高速的GPT-4.1 Mini,以及最小、最快、最经济的 GPT-4.1 Nano。
 
  据介绍,GPT‑4.1系列模型在编码能力、复杂指令遵循、长文本处理(首次支持高达一百万 Token 上下文,且无额外费用)以及多模态理解方面均实现了显著提升,性能全面超越 GPT-4o,并在关键指标上比肩甚至超越 GPT-4.5。
 
  值得注意的是,GPT-4.1系列仅通过 API 提供。
 
  此前,OpenAI刚刚出台了一项针对未来新的大模型AIP调用的规定,要求AIP调用组织完成身份验证流程,才能解锁访问OpenAI平台最先进模型和功能。也就是说“不通过验证就不让用最新模型”。尽管OpenAI 的AIP组织验证支持200多个国家和地区,但中国大陆开发者仍面临资格限制。
 
  另外,OpenAI史上最贵大模型将被“淘汰”。
 
  OpenAI称,将在API中弃用GPT-4.5预览版,因为GPT-4.1在许多关键功能上提供了改进或相似的性能,且成本和延迟更低。GPT-4.5预览版将在三个月后,即2025年7月14日关闭,以便开发者有足够的时间进行过渡。
 
  GPT-4.1三大模型
 
  旗舰模型GPT‑4.1性能优化集中于编码、指令遵循、长文本理解上:
 
  1、最强编码:GPT‑4.1在SWE-bench Verified上的得分为54.6%,比GPT‑4o提高了21.4个百分点,比GPT‑4.5提高了26.6个百分点。
 
  2、指令遵循:在Scale的MultiChallenge⁠上,GPT‑4.1的得分为38.3%,比GPT‑4o提高了10.5个百分点。
 
  3、长上下文:在Video-MME上,GPT‑4.1取得了新的SOTA——在长视频、无字幕类别中得分72.0%,高于GPT-4o的65.3%。
 
  GPT-4.1 mini 在小型模型性能方面取得了重大飞跃,甚至在许多基准测试中超越了 GPT-4o。它在智能评估中与 GPT-4o 相当或超过,同时将延迟减少了近一半,成本降低了 83%。
 
  对于需要低延迟的任务,GPT-4.1 nano 是最快且最便宜的模型。它以其 100 万个标记的上下文窗口,在小型尺寸下提供卓越的性能,并在 MMLU 上得分 80.1%,在 GPQA 上得分 50.3%,在 Aider 多语言编码上得分 9.8%——甚至高于 GPT-4o mini。它非常适合分类或自动补全等任务。
 
  API定价
 
  GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 现在对所有开发者开放,仅通过API提供。
 
  价格方面,GPT‑4.1比GPT‑4o便宜26%,输入、输出分别是每百万token 2美元和8美元。
 
  GPT‑4.1 nano是OpenAI迄今为止价格最低、速度最快的模型,输入、输出分别为0.1美元和0.4美元。
 
  对于重复使用相同上下文的查询,这些新模型的提示词缓存折扣已从之前的50%提高至75%。
 
  最后,长上下文请求已包含在标准的按Token计费内,无需额外费用。
 
  今年2月,OpenAI发布了自己有史以来最贵的大模型GPT-4.5,GPT-4.5的API定价高达75美元/百万tokens输入、150美元/百万tokens输出,被开发者吐槽“用不起”!
 
  这次GPT-4.1的价格,你觉得如何?
 
  通过视频,OpenAI 团队成员介绍了GPT‑4.1系列模型模型的性能优势、基准测试结果,并通过实时演示,如现场编写功能完善的前端应用、处理超长日志文件等,展现了它们的实际能力。
 
  一起看看:
 
  编码能力显著优于 GPT-4o
 
  GPT-4.1 在各种编码任务中显著优于 GPT-4o,包括主动解决编码任务、前端编码、减少不必要的编辑、可靠地遵循差异格式、确保一致的工具使用等。
 
  在SWE-bench Verified(一个衡量现实世界软件工程技能的指标)上,GPT-4.1完成了54.6%的任务,而GPT-4o完成了33.2%(2024-11-20)。这反映了GPT-4.1模型在探索代码库、完成任务以及生成既可运行又可通过测试的代码方面的能力提升。
 
  对于希望编辑大型文件的API开发者来说,GPT-4.1在多种格式下的代码差异方面更加可靠。Aider的多语言差异基准测试中,GPT-4.1的成绩是GPT-4o的两倍多,并且甚至比GPT-4.5高出8个百分点。
 
  GPT-4.1专门训练以更可靠地遵循diff格式,这使得开发者只需让模型输出更改的行,而不是重写整个文件,从而节省成本和延迟。
 
  对于喜欢重写整个文件的开发者,GPT-4.1的输出token限制提高到了32,768个(相比GPT-4o的16,384个tokens有所增加)。
 
  GPT-4.1 在前端编码方面也显著优于 GPT-4o,能够创建功能更强大、外观更美观的网页应用。在对比测试中,评分人员80%的时间更喜欢 GPT-4.1生成的网站,而不是 GPT-4o生成的网站。
 
  除了上述基准测试之外,GPT-4.1 在更可靠地遵循格式方面表现更佳,并且更少进行不必要的编辑。在OpenAI内部评估中,代码中的不必要的编辑从 GPT-4o 的 9% 降至 GPT-4.1 的 2%。
 
  指令遵循
 
  GPT-4.1 更可靠地遵循指令,我们在各种指令遵循评估中测量到了显著的改进。GPT-4.1在困难提示方面的表现相较于GPT-4o有了显著提升。
 
  多轮指令跟随对于许多开发者来说至关重要——模型需要能够在对话的深层保持连贯性,并跟踪用户之前告诉它的信息。OpenAI训练了GPT-4.1,使其能够更好地从对话中的过去消息中提取信息,从而实现更自然的对话。
 
  在Scale的MultiChallenge基准测试中GPT‑4.1虽然不及o1和GPT-4.5,但已经可以追上o3-mini,并且比GPT‑4o提升了10.5个百分点之多。
 
  GPT-4.1在IFEval上的得分也为87.4%,而GPT-4o的得分为81.0%。IFEval使用带有可验证指令的提示(例如,指定内容长度或避免某些术语或格式)。
 
  长文本
 
  GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 可以处理多达 100 万个上下文标记——比之前的 GPT-4o 模型多 128,000 个,非常适合处理大型代码库或大量长文档。
 
  OpenAI展示了GPT-4.1在上下文窗口内不同位置检索一条隐藏的少量信息(即一根 “针”)的能力,也就是“大海捞针”的能力。
 
  OpenAI还发布了用于评估多跳长上下文推理的数据集Graphwalks。这是因为,许多需要长上下文的开发者用例需要在上下文中进行多个逻辑跳跃,例如在编写代码时在多个文件之间跳转,或者在回答复杂的法律问题时交叉引用文档等。
 
  Graphwalks需要模型跨上下文多个位置进行推理,其使用由十六进制散列组成的定向图填充上下文窗口,然后要求模型从图中的一个随机节点开始进行广度优先搜索(BFS),然后要求它返回一定深度的所有节点。
 
  GPT-4.1在上下文长度达到128K个token时优于GPT-4o。
我要评论
文明上网,理性发言。(您还可以输入200个字符)

所有评论仅代表网友意见,与本站立场无关。

版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了