正在阅读:ChatGPT Agent正式发布了,看看实力如何

ChatGPT Agent正式发布了,看看实力如何

2025-07-18 13:29:03来源:TechWeb.com.cn 关键词:ChatGPTChatGPT Agent阅读量:3060

导读:即日起,专业版(Pro)、增强版(Plus)和团队版(Team)ChatGPT 用户都可使用ChatGPT Agent。ChatGPT Agent的使用入口没变,还是在ChatGPT原页面,“工具”下拉选择“Agent mode”即可。
  7月18日消息,OpenAI CEO 奥特曼(Sam Altman)带队直播25分钟发布“ChatGPT Agent”,首个统一智能体,大大提升了ChatGPT处理现实世界任务需求的能力。
 
  例如,通过ChatGPT Agent,可以让ChatGPT处理以下请求:“查看我的日历,并根据最新消息简要介绍即将召开的客户会议”、“计划和购买食材,为四人做日式早餐”以及“分析三个竞争对手并创建幻灯片”。ChatGPT将智能地浏览网站、过滤结果、在需要时提示你安全登录、运行代码、进行分析,甚至提供可编辑的PPT、Excel,总结其分析结果。
 
  奥特曼称:“ChatGPT Agent使用计算机执行复杂任务,对自己来说是一个真正感受AGI的时刻。”
 
  即日起,专业版(Pro)、增强版(Plus)和团队版(Team)ChatGPT 用户都可使用ChatGPT Agent。
 
  ChatGPT Agent的使用入口没变,还是在ChatGPT原页面,“工具”下拉选择“Agent mode”即可。
 
  融合三大能力,PPT比人做得好
 
  今年1月,OpenAI发布了首个智能体Operator,让AI像人类一样直接与GUI交互,可以自主上网、点击和输入。
 
  Operator推出2周后,OpenAI又推出了首个Deep Research,推理模型直接可以使用工具,开展研究,擅长分析和总结信息。
 
  现在,ChatGPT Agent融合了此前三大技术突破的优势:Operator与网站交互的能力,Deep Research整合信息的技巧,以及ChatGPT智能对话优势。
 
  “Agent mode”下的ChatGPT可以直接使用用户的计算机资源,包括智能浏览网页、筛选结果,在需要时提醒安全登录、运行代码、进行分析,还能直出PPT和Excel汇总发现结果。
 
  为了展示ChatGPT Agent能力,团队演示了一个真实场景:上传一张团队吉祥物图片,ChatGPT 可以制作公司吉祥物漫画风贴纸,然后再订购500张并送到某个地址。
 
  在理解提示词后,ChatGPT 先整合搜索-再推理创作-再执行任务,调用用工具Imagen生成动漫版图片,设计贴纸,最后从StickerMule订购500份寄到的用户指定的地址。
 
  另外,团队还演示了ChatGPT Agent做PPT的能力。
 
  要求ChatGPT从Google云中提取分析评估数据并制作成PPT,直接用图表展示结果。
 
  ChatGPT Agent 链接Google云API进行搜索,并读取相关内容信息,并编写一些代码。
 
  模型使用图像生成功能,为PPT 图表做一些装饰和优化。
 
  制作出第一张PPT,还不够精致。
 
  强化学习的一个关键特性是模型会审视自己的结果,并加以完善,以交付出色的最终结果。
 
  最终,ChatGPT Agent调用模型生成了PPT图表。
 
  ChatGPT Agent “跑分”情况
 
  在网页浏览、现实任务完成能力的评估中,ChatGPT Agent全部刷新了SOTA。
 
  在人类最后考试(HLE)中,ChatGPT Agent以41.6%的得分,刷新了最高纪录。当研究团队采用并行策略后,即同时运行最多8次并选取自信度最高结果,HLE得分直接刷到了44.4%。
 
  在最难的数学基准测试FrontierMath中,通过使用工具,如访问终端执行代码,ChatGPT Agent的准确率达到27.4%,远远优于之前的o3和o4-mini两种模型。
 
  在旨在评估模型在复杂、经济上有价值的知识工作任务上的性能的内部基准上,ChatGPT Agent的输出大约有一半的情况下与人类相当或更好,同时明显优于o3和o4 mini。
 
  在评估数据科学生产力任务的DSBench中,ChatGPT Agent显著超越了人类表现。
 
  在Excel编辑能力的SpreadsheetBench测试中,当能够直接编辑电子表格时,ChatGPT Agent的得分甚至更高,为45.5%,而Excel中的Copilot为20.0%。
 
  在投行分析师1-3年级建模任务的内部评估中,ChatGPT Agent表现优于Deep Research和o3模型。
 
  在OpenAI发布的BrowseComp基准测试(衡量浏览代理在网络上定位难以找到的信息的能力),ChatGPT Agent以68.9%的准确率成为新SOTA,比Deep Research高出17.4%。
 
  最后,关于WebArena⁠(在新窗口中打开),这是一个旨在评估网络浏览代理在完成现实世界网络任务方面的性能的基准测试,ChatGPT Agent比基于o3的CUA(为Operator提供动力的模型)有所改进。
 
  AI Agent三维竞争格局形成
 
  2025年是全球AI Agent技术爆发元年,行业从基础大模型竞争全面转向智能体落地,竞争格局呈现多层级分化。
 
  在通用领域,今年年初,中国团队开发的全球首个通用Agent“Manus”发布即引发震撼,6月访问量达1616万次。
 
  在垂直领域,就在OpenAI ChatGPT Agent发布前一天,亚马逊云科技发布了企业级Agent部署平台Amazon Bedrock AgentCore,提供七大核心服务(如运行时隔离、代码沙盒、浏览器工具),支持8小时异步任务,帮助开发者打通AI agent从概念验证到生产部署之间的关键环节。
 
  随着OpenAI ChatGPT Agent的强势加入,当前AI Agent已形成 “通用 vs 垂直”、“端到端 vs 多模型”、“C端工具 vs B端平台”的三维竞争格局。
我要评论
文明上网,理性发言。(您还可以输入200个字符)

所有评论仅代表网友意见,与本站立场无关。

版权与免责声明:

凡本站注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本站将追究其相关法律责任。

本站转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本站赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时,必须保留本站注明的作品第一来源,并自负版权等法律责任。如擅自篡改为“稿件来源:智能制造网”,本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多,如涉及作品内容、版权等问题,请与本站联系并提供相关证明材料:联系电话:0571-89719789;邮箱:1271141964@qq.com。

不想错过行业资讯?

订阅 智能制造网APP

一键筛选来订阅

信息更丰富

推荐产品/PRODUCT 更多
智造商城:

PLC工控机嵌入式系统工业以太网工业软件金属加工机械包装机械工程机械仓储物流环保设备化工设备分析仪器工业机器人3D打印设备生物识别传感器电机电线电缆输配电设备电子元器件更多

我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)1271141964.qq.com
  • 联系电话0571-89719789
工业4.0时代智能制造领域“互联网+”服务平台
智能制造网APP

功能丰富 实时交流

智能制造网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智能制造网

抖音号:gkzhan

打开抖音 搜索页扫一扫

视频号

智能制造网

公众号:智能制造网

打开微信扫码关注视频号

快手

智能制造网

快手ID:gkzhan2006

打开快手 扫一扫关注
意见反馈
我要投稿
我知道了