重磅！谷歌的这项技术，或颠覆机器人行业

2023-03-13 09:49:08来源：OFweek机器人网关键词：机器人智能制造工业机器人阅读量：23814

导读：前几天，谷歌和柏林工业大学的团队推出了史上最大的视觉语言模型——PaLM-E，该模型包含了5620亿个参数，相之前最大模型GPT-3的1750亿个参数，参数量翻了两倍多。

　　我们的世界正向着科幻大踏步前进。

　　过去几个月，ChatGPT的出现，引爆了一波人工智能热潮，这个强大的聊天机器人让我们看到了通用语言模型的生产力前景，只要继续迭代下去，有望大大提高人类社会的生产效率，在诸多行业产生变革。

　　而就在我们还在适应ChatGPT带来的变化时，一个更加重磅的炸弹被引爆了，前几天，谷歌和柏林工业大学的团队推出了史上最大的视觉语言模型——PaLM-E，该模型包含了5620亿个参数，相之前最大模型GPT-3的1750亿个参数，参数量翻了两倍多。

　　更加重要的是，PaLM-E作为一种多模态具身视觉语言模型，成功实现了让人工智能同时具备“理解文字”和“读懂图片”的能力，它不仅可以理解图像，还能理解、生成语言，执行各种复杂的机器人指令而无需重新训练。

　　可以说，PaLM-E的发布标志着人工智能领域的又一个重要里程碑，极大地推动人工智能技术的发展和应用，它不仅在技术上提高了人工智能的水平，在应用上，也能为更多领域提供更加智能、更加自主的工具和服务，比如能轻易理解人类指令的智能机器人或许并不遥远了。

　　视觉-语言多模态的通才模型

　　PaLM-E，全称Pathways Language Model with Embodied，是一种具身视觉语言模型，是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合，它的强大之处在于，能够利用视觉数据来增强其语言处理能力。

　　“PaLM-E是迄今为止已知的最大VLM(视觉语言模型)。我们观察到诸如多模态思维链推理(允许模型分析包括语言和视觉信息的一系列输入)，只接受单图像提示训练的多图像推理(使用多个图像作为输入来做出推理或预测)等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess表示。

　　PaLM-E中的E，即embodied(具身化)，是指基于语言模型，PaLM-E能够直接观察、利用真实世界中的信息，比如视觉图像或传感器数据，将它们编码为一系列与语言标记大小相同的向量，不再仅仅依赖于文本输入，使得机器人的智能化跃上一个新的台阶。

　　通过具身化功能，PaLM-E能完成即具身推理任务，即让机器人在虚拟或真实的环境中，通过多模态的输入(如语言、视觉、触觉以及机器人的3D空间状态信息等)，完成一些需要常识和逻辑推理的任务。

　　比如你跟机器人说“帮我把桌上的薯片拿过来”，这就是一个具身推理任务，不仅需要机器人理解人类的语言和意图，还需要机器人观察和操作环境中的物体，以及规划一系列的子目标和动作，具身推理任务是一个非常复杂的领域，涉及到与多模态语言模型、神经符号系统、对话系统等各方面的技术，PaLM-E也只是初步涉及而已，不过这也已经是非常大的进步了。

　　除此之外，PaLM-E还表现出了强大的正迁移能力，即它可以将从一项任务中学到的知识和技能迁移到另一项任务中，从而与单任务机器人模型相比性能明显提高。

　　赋机器人以智能的PaLM-E

　　PaLM-E不仅可以指导机器人完成各种复杂的任务，还可以生成描述图像的语言，展示了前所未有的灵活性和适应性，代表着一次重大飞跃，特别是人机交互领域。

　　在测试中，机器人被要求去抽屉里拿薯片。根据谷歌的说法，当给出一个高级命令时，比如“把抽屉里的薯片拿给我”，PaLM-E可以为一个有手臂的移动机器人平台生成一个行动计划并执行自己的行动。PaLM-E通过分析来自机器人相机的数据来实现这一点，而无需对场景进行预处理，这消除了人类预处理或注释数据的需要，并允许更自主的机器人控制。

　　同时它还具有弹性，可以对环境做出反应。例如，PaLM-E模型可以引导机器人从厨房取薯片袋，而且，通过将PaLM-E集成到控制回路中，它可以抵抗任务期间可能发生的中断。在一个视频示例中，研究人员从机器人手中抓取薯片并移动它们，但机器人找到薯片并再次抓取它们。

　　PaLM-E还能识别图像，并生成关于它的文本信息。研究人员写道，PaLM-E也是一种“有效的视觉语言模型”。例如，它可以识别图像中的篮球明星科比·布莱恩特，并可以生成关于他的文本信息，比如他赢得了多少次冠军，在另一个例子中，PaLM-E看到一个交通标志并解释与之相关的规则。

　　PaLM-E的出现为机器人领域提供了更强大的工具，机器人可以更好地理解环境和交互，从而更加自主地执行任务。例如，在工厂、医院、物流中心等场景下，机器人可以通过PaLM-E更好地识别目标物体、理解工作流程、执行任务等。

　　结语

　　PaLM-E的出现可以说一个新的拐点已经到来，多模态的融合将成为未来必然的发展方向，不管是文字，还是图片，亦或者语音，都耦合到一个模型中，制造出通用的全能模型。

　　就如PaLM-E里面提到的，LLM(大语言模型)有个天然的局限性，就是它只在文本语料中训练，虽然积累了大量的内在知识，但无法与真实世界接触，文本世界的抽象需要用真实世界的各种信息去标定，因此若想实现AGI(通用人工智能)，必须多模态。

　　PaLM-E这种多模态具身视觉语言模型的出现，也将让人机交互方式产生变化，以对话方式控制的产品将越来越多，毕竟谁也不想买个电子产品，就要在手机里装个App，使用时还要进行繁琐的操作，说一句话就能完成所有的操作，恐怕没有人会拒绝。

　　原标题：重磅！谷歌的这项技术，真的要颠覆机器人行业

上一篇：研究人员开发动态阻抗频谱技术可实时测量电池老化状态

下一篇：日产新电动动力系统成本可降低30%

我要评论

昵称

匿名

文明上网，理性发言。（您还可以输入200个字符)

表情

所有评论仅代表网友意见，与本站立场无关。

2025苏州复材展&展商名录公布！200＋复材企业与您相约江苏！
中国(苏州)国际高性能复合材料展览会（CSCME）将重点邀请高性能材料、复合材料结构设计、复合材料生产用耗材/辅料、复合材料智能制造技术与加工设备、材料质量控制与检测、复合材料工程与应用等领域的近200家核心品牌厂商参展。
复合材料智能制造
2025-05-13 13:53:11
人形机器人加速推进！2025年长期投资价值值得期待
多家机构预测，2025年人形机器人或迎来量产元年，长期投资价值值得期待。首先，在工业生产领域，人形机器人具有灵活性和智能性等特点，可以适应各种复杂的工作环境，完成各种精细化和高危型的任务。
人形机器人智能制造
2025-05-09 16:39:49
AI领航制造行业新篇，携手华为共赢数智未来
近日，华为AI＋制造行业峰会2025在广州成功举办。峰会期间，华为中国政企业务副总裁郭振兴在媒体沟通会中提到，AI的兴起对制造行业的降本增效及产业创新有巨大的促进作用。
华为AI＋制造智能制造
2025-05-07 16:27:08
机器人交警“夸父”上岗：说着一口流利的四川话
“夸父” 机器人作为全尺寸高动态双足仿人形机器人，基本实现国产化，支持360度全向移动，最高时速可达5公里，还能轻松完成20厘米高度的跳跃。
机器人人形机器人夸父
2025-05-06 09:53:20
宇树机器人五一兼职靶场累瘫蹲下休息跷二郎腿充电走红
据现场工作人员透露，机器人连续工作一小时左右就会出现电量不足、过热等状况，甚至在表演时直接“瘫倒”在地，不得不紧急暂停活动进行抢修和更换电池。
机器人宇树H1机器人
2025-05-06 09:49:54
传统制鞋业的AI突围！鞋企借智能制造重构行业创新范式
2025年将投入1.2亿元建设“AI智造基地“，计划实现从智能设计到个性定制生产的全链路数字化，目标将定制鞋履的交付周期压缩至72小时以内。
传统制鞋智能制造AI大模型
2025-04-29 17:41:52

版权与免责声明：

凡本站注明“来源：智能制造网”的所有作品，均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品，未经本站授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：智能制造网”。违反上述声明者，本站将追究其相关法律责任。

本站转载并注明自其它来源（非智能制造网）的作品，目的在于传递更多信息，并不代表本站赞同其观点或和对其真实性负责，不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、平台或个人从本站转载时，必须保留本站注明的作品第一来源，并自负版权等法律责任。如擅自篡改为“稿件来源：智能制造网”，本站将依法追究责任。

鉴于本站稿件来源广泛、数量较多，如涉及作品内容、版权等问题，请与本站联系并提供相关证明材料：联系电话：0571-89719789；邮箱：1271141964@qq.com。