最新行业资讯

头条号

最新原创观点

百家号


资讯中心

重磅!谷歌的这项技术,或颠覆机器人行业

2023-03-13 09:49:08来源:OFweek机器人网 阅读量:23609

分享:
导读:前几天,谷歌和柏林工业大学的团队推出了史上最大的视觉语言模型——PaLM-E,该模型包含了5620亿个参数,相之前最大模型GPT-3的1750亿个参数,参数量翻了两倍多。
  我们的世界正向着科幻大踏步前进。
 
  过去几个月,ChatGPT的出现,引爆了一波人工智能热潮,这个强大的聊天机器人让我们看到了通用语言模型的生产力前景,只要继续迭代下去,有望大大提高人类社会的生产效率,在诸多行业产生变革。
 
  而就在我们还在适应ChatGPT带来的变化时,一个更加重磅的炸弹被引爆了,前几天,谷歌和柏林工业大学的团队推出了史上最大的视觉语言模型——PaLM-E,该模型包含了5620亿个参数,相之前最大模型GPT-3的1750亿个参数,参数量翻了两倍多。
 
  更加重要的是,PaLM-E作为一种多模态具身视觉语言模型,成功实现了让人工智能同时具备“理解文字”和“读懂图片”的能力,它不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练。
 
  可以说,PaLM-E的发布标志着人工智能领域的又一个重要里程碑,极大地推动人工智能技术的发展和应用,它不仅在技术上提高了人工智能的水平,在应用上,也能为更多领域提供更加智能、更加自主的工具和服务,比如能轻易理解人类指令的智能机器人或许并不遥远了。
 
  视觉-语言多模态的通才模型
 
  PaLM-E,全称Pathways Language Model with Embodied,是一种具身视觉语言模型,是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合,它的强大之处在于,能够利用视觉数据来增强其语言处理能力。
 
  “PaLM-E是迄今为止已知的最大VLM(视觉语言模型)。我们观察到诸如多模态思维链推理(允许模型分析包括语言和视觉信息的一系列输入),只接受单图像提示训练的多图像推理(使用多个图像作为输入来做出推理或预测)等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess表示。
 
  PaLM-E中的E,即embodied(具身化),是指基于语言模型,PaLM-E能够直接观察、利用真实世界中的信息,比如视觉图像或传感器数据,将它们编码为一系列与语言标记大小相同的向量,不再仅仅依赖于文本输入,使得机器人的智能化跃上一个新的台阶。
 
  通过具身化功能,PaLM-E能完成即具身推理任务,即让机器人在虚拟或真实的环境中,通过多模态的输入(如语言、视觉、触觉以及机器人的3D空间状态信息等),完成一些需要常识和逻辑推理的任务。
 
  比如你跟机器人说“帮我把桌上的薯片拿过来”,这就是一个具身推理任务,不仅需要机器人理解人类的语言和意图,还需要机器人观察和操作环境中的物体,以及规划一系列的子目标和动作,具身推理任务是一个非常复杂的领域,涉及到与多模态语言模型、神经符号系统、对话系统等各方面的技术,PaLM-E也只是初步涉及而已,不过这也已经是非常大的进步了。
 
  除此之外,PaLM-E还表现出了强大的正迁移能力,即它可以将从一项任务中学到的知识和技能迁移到另一项任务中,从而与单任务机器人模型相比性能明显提高。
 
  赋机器人以智能的PaLM-E
 
  PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言,展示了前所未有的灵活性和适应性,代表着一次重大飞跃,特别是人机交互领域。
 
  在测试中,机器人被要求去抽屉里拿薯片。根据谷歌的说法,当给出一个高级命令时,比如“把抽屉里的薯片拿给我”,PaLM-E可以为一个有手臂的移动机器人平台生成一个行动计划并执行自己的行动。PaLM-E通过分析来自机器人相机的数据来实现这一点,而无需对场景进行预处理,这消除了人类预处理或注释数据的需要,并允许更自主的机器人控制。
 
  同时它还具有弹性,可以对环境做出反应。例如,PaLM-E模型可以引导机器人从厨房取薯片袋,而且,通过将PaLM-E集成到控制回路中,它可以抵抗任务期间可能发生的中断。在一个视频示例中,研究人员从机器人手中抓取薯片并移动它们,但机器人找到薯片并再次抓取它们。
 
  PaLM-E还能识别图像,并生成关于它的文本信息。研究人员写道,PaLM-E也是一种“有效的视觉语言模型”。例如,它可以识别图像中的篮球明星科比·布莱恩特,并可以生成关于他的文本信息,比如他赢得了多少次冠军,在另一个例子中,PaLM-E看到一个交通标志并解释与之相关的规则。
 
  PaLM-E的出现为机器人领域提供了更强大的工具,机器人可以更好地理解环境和交互,从而更加自主地执行任务。例如,在工厂、医院、物流中心等场景下,机器人可以通过PaLM-E更好地识别目标物体、理解工作流程、执行任务等。
 
  结语
 
  PaLM-E的出现可以说一个新的拐点已经到来,多模态的融合将成为未来必然的发展方向,不管是文字,还是图片,亦或者语音,都耦合到一个模型中,制造出通用的全能模型。
 
  就如PaLM-E里面提到的,LLM(大语言模型)有个天然的局限性,就是它只在文本语料中训练,虽然积累了大量的内在知识,但无法与真实世界接触,文本世界的抽象需要用真实世界的各种信息去标定,因此若想实现AGI(通用人工智能),必须多模态。
 
  PaLM-E这种多模态具身视觉语言模型的出现,也将让人机交互方式产生变化,以对话方式控制的产品将越来越多,毕竟谁也不想买个电子产品,就要在手机里装个App,使用时还要进行繁琐的操作,说一句话就能完成所有的操作,恐怕没有人会拒绝。
 
  原标题:重磅!谷歌的这项技术,真的要颠覆机器人行业

我要评论

文明上网,理性发言。(您还可以输入200个字符)

所有评论仅代表网友意见,与本站立场无关。

相关新闻

深圳市发布“城市+AI”应用场景清单(第三批) 2024-03-28 09:40:00
深圳市工业和信息化局发布“城市+AI”应用场景清单(第三批),共32个场景入选。
智能制造:实现“智能”真正重要的是什么? 2024-03-27 09:35:27
智能制造意味着将以数据为中心的技术融入制造流程,标志着向工业4.0的过渡。这一演变以物联网(IoT)、人工智能(AI)和机器学习(ML)为特征,根植于工业革命的历史进程,从蒸汽动力到电力,再到数字技术。
工业机器人行业规范条件及管理实施办法征求意见 2024-03-27 09:18:06
业内人士认为,此举将进一步规范工业机器人行业管理,引导企业良性竞争,同时发挥规范企业的示范效应,推动工业机器人行业高质量发展。

版权与免责声明:凡本网注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智能制造网”。违反上述声明者,本网将追究其相关法律责任。

本网转载并注明自其它来源(非智能制造网)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

不想错过最新资讯?

下载智能制造APP

一键筛选来订阅

信息更精准

企业直播

更多

产品商城 更多


关于我们|本站服务|会员服务|商站通服务|旗下网站|友情链接|产品分类浏览|意见反馈|兴旺通|频道

智能制造网 - 工业4.0时代智能制造领域“互联网+”服务平台

Copyright gkzhan.comAll Rights Reserved法律顾问:浙江天册律师事务所 贾熙明律师

客服热线:0571-87756395采购热线:0571-87759926媒体合作:0571-89719789

客服部:采购部:编辑部:展会合作:市场一组:市场二组:

关闭