ChatGPT Agent正式发布了，看看实力如何

2025-07-18 13:29:03来源：TechWeb.com.cn 关键词：ChatGPT ChatGPT Agent阅读量：3060

导读：即日起，专业版(Pro)、增强版(Plus)和团队版(Team)ChatGPT 用户都可使用ChatGPT Agent。ChatGPT Agent的使用入口没变，还是在ChatGPT原页面，“工具”下拉选择“Agent mode”即可。

　　7月18日消息，OpenAI CEO 奥特曼(Sam Altman)带队直播25分钟发布“ChatGPT Agent”，首个统一智能体，大大提升了ChatGPT处理现实世界任务需求的能力。

　　例如，通过ChatGPT Agent，可以让ChatGPT处理以下请求：“查看我的日历，并根据最新消息简要介绍即将召开的客户会议”、“计划和购买食材，为四人做日式早餐”以及“分析三个竞争对手并创建幻灯片”。ChatGPT将智能地浏览网站、过滤结果、在需要时提示你安全登录、运行代码、进行分析，甚至提供可编辑的PPT、Excel，总结其分析结果。

　　奥特曼称：“ChatGPT Agent使用计算机执行复杂任务，对自己来说是一个真正感受AGI的时刻。”

　　即日起，专业版(Pro)、增强版(Plus)和团队版(Team)ChatGPT 用户都可使用ChatGPT Agent。

　　ChatGPT Agent的使用入口没变，还是在ChatGPT原页面，“工具”下拉选择“Agent mode”即可。

　　融合三大能力，PPT比人做得好

　　今年1月，OpenAI发布了首个智能体Operator，让AI像人类一样直接与GUI交互，可以自主上网、点击和输入。

　　Operator推出2周后，OpenAI又推出了首个Deep Research，推理模型直接可以使用工具，开展研究，擅长分析和总结信息。

　　现在，ChatGPT Agent融合了此前三大技术突破的优势：Operator与网站交互的能力，Deep Research整合信息的技巧，以及ChatGPT智能对话优势。

　　“Agent mode”下的ChatGPT可以直接使用用户的计算机资源，包括智能浏览网页、筛选结果，在需要时提醒安全登录、运行代码、进行分析，还能直出PPT和Excel汇总发现结果。

　　为了展示ChatGPT Agent能力，团队演示了一个真实场景：上传一张团队吉祥物图片，ChatGPT 可以制作公司吉祥物漫画风贴纸，然后再订购500张并送到某个地址。

　　在理解提示词后，ChatGPT 先整合搜索-再推理创作-再执行任务，调用用工具Imagen生成动漫版图片，设计贴纸，最后从StickerMule订购500份寄到的用户指定的地址。

　　另外，团队还演示了ChatGPT Agent做PPT的能力。

　　要求ChatGPT从Google云中提取分析评估数据并制作成PPT，直接用图表展示结果。

　　ChatGPT Agent 链接Google云API进行搜索，并读取相关内容信息，并编写一些代码。

　　模型使用图像生成功能，为PPT 图表做一些装饰和优化。

　　制作出第一张PPT，还不够精致。

　　强化学习的一个关键特性是模型会审视自己的结果，并加以完善，以交付出色的最终结果。

　　最终，ChatGPT Agent调用模型生成了PPT图表。

　　ChatGPT Agent “跑分”情况

　　在网页浏览、现实任务完成能力的评估中，ChatGPT Agent全部刷新了SOTA。

　　在人类最后考试(HLE)中，ChatGPT Agent以41.6%的得分，刷新了最高纪录。当研究团队采用并行策略后，即同时运行最多8次并选取自信度最高结果，HLE得分直接刷到了44.4%。

　　在最难的数学基准测试FrontierMath中，通过使用工具，如访问终端执行代码，ChatGPT Agent的准确率达到27.4%，远远优于之前的o3和o4-mini两种模型。

　　在旨在评估模型在复杂、经济上有价值的知识工作任务上的性能的内部基准上，ChatGPT Agent的输出大约有一半的情况下与人类相当或更好，同时明显优于o3和o4 mini。

　　在评估数据科学生产力任务的DSBench中，ChatGPT Agent显著超越了人类表现。

　　在Excel编辑能力的SpreadsheetBench测试中，当能够直接编辑电子表格时，ChatGPT Agent的得分甚至更高，为45.5%，而Excel中的Copilot为20.0%。

　　在投行分析师1-3年级建模任务的内部评估中，ChatGPT Agent表现优于Deep Research和o3模型。

　　在OpenAI发布的BrowseComp基准测试(衡量浏览代理在网络上定位难以找到的信息的能力)，ChatGPT Agent以68.9%的准确率成为新SOTA，比Deep Research高出17.4%。

　　最后，关于WebArena⁠(在新窗口中打开)，这是一个旨在评估网络浏览代理在完成现实世界网络任务方面的性能的基准测试，ChatGPT Agent比基于o3的CUA(为Operator提供动力的模型)有所改进。

　　AI Agent三维竞争格局形成

　　2025年是全球AI Agent技术爆发元年，行业从基础大模型竞争全面转向智能体落地，竞争格局呈现多层级分化。

　　在通用领域，今年年初，中国团队开发的全球首个通用Agent“Manus”发布即引发震撼，6月访问量达1616万次。

　　在垂直领域，就在OpenAI ChatGPT Agent发布前一天，亚马逊云科技发布了企业级Agent部署平台Amazon Bedrock AgentCore，提供七大核心服务(如运行时隔离、代码沙盒、浏览器工具)，支持8小时异步任务，帮助开发者打通AI agent从概念验证到生产部署之间的关键环节。

　　随着OpenAI ChatGPT Agent的强势加入，当前AI Agent已形成 “通用 vs 垂直”、“端到端 vs 多模型”、“C端工具 vs B端平台”的三维竞争格局。

上一篇：曝谷歌下月发布会有8大新品，提前一窥究竟

下一篇：联塑机器产品介绍 | 315CPVC管材挤出生产线

我要评论

昵称

匿名

文明上网，理性发言。（您还可以输入200个字符)

表情

所有评论仅代表网友意见，与本站立场无关。

早报|千亿高空机器人赛道迎来爆发；OpenAI发布ChatGPT Agent
高空机器人赛道两家头部企业完成大额融资，将这条千亿美元的“垂直赛道”瞬间点燃；OpenAI通过技术直播发布重磅产品ChatGPT Agent......
高空机器人OpenAIChatGPT Agent
2025-07-18 09:42:29
ChatGPT重磅升级GPT-4.1：编程专家模型登场
在实际测试中，GPT-4.1比GPT-4o更注重效率，不再过度聊天，这让它在专业场景中更可靠。与旧版GPT-4o相比，GPT-4.1带来了更全面的提升。
ChatGPTGPT-4.1
2025-05-15 11:56:23
再见，GPT-4将退出ChatGPT舞台
自2025年4月30日起，GPT-4将在ChatGPT中退役，并完全被GPT-4o取代。GPT-4 仍将在API中可用。
GPT-4ChatGPT
2025-04-14 10:29:08
摊牌了！OpenAI：DeepSeek可与ChatGPT媲美愿在AI领域与中国合作
DeepSeek“干得不错”，比如在展示思维链条以及允许大规模免费应用方面，这些“显然都是用户期望的”功能。
OpenAIDeepSeekChatGPT
2025-02-12 15:05:10
ChatGPT重大更新：新增实时搜索和高级语音
OpenAI对搜索算法进行了深度优化，使得用户提出问题后，能在极短的时间内（分钟级别）获取到包括股票、新闻等在内的实时内容。这一更新无疑极大地提升了搜索的时效性和实用性。
ChatGPT搜索功能
2024-12-17 09:40:55
ChatGPT首次被植入人类大脑：帮助残障人士开启对话
这款命名为Synchron Switch的革命性设备，通过颈静脉这一自然通道轻松进入大脑，精准定位于运动皮层附近，实现了大脑运动信号与外部设备的无线桥梁。
ChatGPT脑机接口
2024-08-07 09:12:42

版权与免责声明：

凡本站注明“来源：智能制造网”的所有作品，均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品，未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：智能制造网”。违反上述声明者，本站将追究其相关法律责任。

本站转载并注明自其它来源（非智能制造网）的作品，目的在于传递更多信息，并不代表本站赞同其观点或和对其真实性负责，不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时，必须保留本站注明的作品第一来源，并自负版权等法律责任。如擅自篡改为“稿件来源：智能制造网”，本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多，如涉及作品内容、版权等问题，请与本站联系并提供相关证明材料：联系电话：0571-89719789；邮箱：1271141964@qq.com。