之江实验室智能机器人研究中心副主任宋伟：人形机器人是大语言模型的最佳具身形态-中国机器人峰会官网

当前位置:中国机器人峰会 >> 峰会新闻

之江实验室智能机器人研究中心副主任宋伟：人形机器人是大语言模型的最佳具身形态

发布时间：2023-11-21来源：中国机器人峰会

11月2日，2023年第二届中国机器人云栖峰会在浙江杭州的云栖小镇成功召开，本次峰会以“大模型，赋能机器人非凡智力”为主题，邀请到以德国国家工程院院士张建伟、加拿大工程院院士张丹为首的一众嘉宾，以“5场专业演讲+1场圆桌对话”的形式，邀请现场、线上观众，共同畅谈机器人的未来。期间，之江实验室智能机器人研究中心副主任宋伟教授，以“大模型时代服务机器人的自主决策”为题发表演讲。

未来生活中80%的任务或将由机器人完成

宋伟教授认为，随着技术的进步和发展，机器人的应用已经逐渐从工业领域扩展至建筑、医疗、娱乐、服务等各个领域。当前，除了工业机器人之外，清洁机器人、配送机器人、炒菜机器人、送餐机器人等各式各样的服务机器人开始步入人们的视野。在技术的发展和助推下，未来我们生活中80%的任务可能都会由机器人去完成、去解决，类似于人形机器人的服务机器人或许将在生活中随处可见。但就现阶段来看，让服务机器人真正深度融入到我们的生活中，仍然存在众多挑战。其中，实现自主决策与作业是决定服务机器人能否深度融入人类生活的关键，而这涉及非结构化环境下自主作业和人机交互意图理解等两大难题。

以指挥服务机器人下楼买咖啡为例，服务机器人接收到这一命令后，首先需得对周围环境进行认知判断，然后导航行走至门口，完成开门动作，对出门后的环境进行判断、决策，确定目标地点、行走路线、行走方式等，到达目标地点后，机器人或许还需与人/机器进行交互，然后利用末端执行器拿取咖啡。服务机器人在执行此任务时，不仅需灵活应对可能会随时变化的环境，同时也需得兼备开门、交互、拿取等执行多类型任务的能力。目前服务机器人在执行场景任务时面临任务类型多、执行序列长、操作难度高等挑战。

传统人机交互包括图形界面、手势等多种方式，但主要都是基于预设编程，在机器人的实际应用过程中，指令的下达会受到编程内容限制。编程交互不仅程序繁琐，同时还对用户具有编程技能与经验要求，要真正掌握需花费较多时间与精力。服务机器人在执行此任务时，不仅需灵活应对可能会随时变化的环境，同时也需得兼备开门、交互、拿取等执行多类型任务的能力。目前服务机器人在执行场景任务时面临任务类型多、执行序列长、操作难度高等挑战。

人形机器人是大语言模型的最佳具身形态

宋伟教授表示，大语言模型将成为服务机器人在非结构化环境中自主决策与作业的底座技术，我们要积极拥抱大语言模型，探索其应用边界。但在大语言模型与机器人的结合应用方面，仅仅依靠大语言模型“能说会道”并不足以支撑起机器人在物理世界的自主决策与作业，仍需要结合机器人自身的多模感知和作业能力。机器人的有限端部资源，以及实时性、鲁棒性、准确性与数据隐私等要求，需要开发能够部署在边－端的中小模型。大语言模型是当前通用人工智能技术发展的一项重要成果，而人形机器人普遍被认为是通用作业机器人的形态，也是是大语言模型的最佳具身形态，两者的结合可以形成像人一样与环境交互的、具有身体体验的智能体。

一方面，人形机器人成为智能的具身实体，它与环境的交互将为大语言模型源源不断地提供多模态的感知信息，从而促进大模型的进化；另一方面，大语言模型为人形机器人提供认知、学习的能力，使其更好地适应复杂未知的环境，并促进机器人本体的进化。从某种程度而言，我们人类就可以看作是智能与本体协同进化的结果。这种结合形成的具身智能人形机器人打破了虚拟世界与物理世界之间的边界，将促进通用人工智能技术与通用作业机器人技术的协同进化，从而促进家庭服务机器人关键技术的攻关与应用。