2024年12月18日,在第二届具身智能产业发展论坛上,浙江人形机器人创新中心具身导航技术专家崔瑜翔发表了“类人学习:让机器人由内而外更像人” 的主题演讲。
崔瑜翔表示,浙江人形机器人创新中心在人形机器人技术研发方面取得多项领先成果,特别是在运动控制、手臂操作、移动规划和人机交互等领域实现了技术突破。然而,当前类人机器人仍面临很多技术挑战,尤其是在灵活性、泛化性与自主学习方面。通过数据驱动的方式,浙江人形机器人创新中心正在致力于提升机器人系统的“类人性”。“领航者2号NAVIAI”通过机理融合学习、模型快速部署以及持续发育优化等技术路线,有效提升了机器人的类人运动、操作和移动能力。未来,具身智能技术将极大推动人机共融,为家庭、教育、服务等多个领域带来创新应用。
浙江人形机器人创新中心具身导航技术专家
以下为演讲内容整理:
人形机器人的选择与理念
首先,让我们回顾一下为何选择人形机器人这一方向。最初,我们的核心理念是希望机器人能更贴近人类,以便更好地实现交互,融入人机共存的环境。
图源:演讲嘉宾素材
必须承认,专用机器人在诸多领域已表现出色,如AGV行业、机械臂行业等,它们以高效率、高稳定性和高负载能力,完成了大量工作。那么在这样的背景下,我们为何仍要追求人形机器人这样的通用架构呢?这主要基于以下几点考虑:
专用机器人在工业或家庭场景中的应用往往受到诸多限制。它们通常需要特定的场景改造或支持才能有效工作,大大限制了它们的迁移性与灵活性。此外,结合技术的发展趋势来讲,随着大模型和云边端技术的快速发展,我们不再满足于机器人仅执行单一任务。我们更期望它们能在复杂任务中展现出兼容性。再有就是人们对于交互性的需求,我们之所以选择人形机器人,是因为其形态更能融入人类环境。虽然一个拥有三头六臂的机器人可能在家务活动中表现出色,但这样的形态显然会让人感到不安。
人形机器人的技术发展与挑战
人形机器人技术的发展已历经多年,但为何在前几年相对默默无闻,而今却突然崭露头角?
回顾技术发展历程,早在1969年,就有人开始研究人形机器人的双足控制。到了2000年左右,日本阿西莫等人形机器人的出现,代表着该领域基本构建了相关的基础理论。此后,技术根据不同构型以及不同的需求产生了差异化发展。今年,特斯拉提出将人形机器人价格降至两万美元左右,这一产业化的起点开始浮现。这一举措让社会看到了人形机器人走进千家万户的可能性。在此过程中,我们积累了大量的技术经验,硬件供应链也日趋完善。
业内普遍认为,2024年是机器人产业化的关键时期。然而,产业化只是初步形成产品的标志,要让机器人真正走向商业化、走进千家万户,还需时日。面对诸如大模型等新兴技术带来的令人期待的新方向以及不确定性,我们仍在不断探索和前行。
浙江人形机器人创新中心有限公司致力于此领域的深入研究。我们的团队相对年轻,成立于2023年12月21日。公司设在宁波,由浙江大学中央控制学院的熊蓉教授牵头组建,得到了宁波市政府和海曙区政府的大力支持。我们专注于整个系统的研发及应用开发,致力于将人身机器人应用于to B、to C等各种产品领域,并探索其实际落地效果。
虽然我们的团队年轻,但技术积累却颇为深厚。我们的技术发展历程可以追溯到2000年左右,当时我们就开始涉足机器人行业。此前,我们在AGV厂商、特种应用场景等方面有着丰富的科研合作和项目落地经验。特别是在人形机器人领域,我们已经研究了18年之久。最初,我们在双足构型的基础上进行科研探索,并依靠此技术逐步展开了产业化探索,2024年3月,我们推出了初代样机“领航者1号”,8月的世界机器人大会上又推出了“领航者2号”NAVIAI。
除了人形机器人产品外,我们还设立有两款产品线,以满足不同工业或家庭的需求。除了完整的腿足系列外,我们还有面向工业应用的轮臂系列,以及面向零售或工业操作场景下的半身系列。同时,我们还提供一整套调试部署的工具链,帮助产品快速部署到应用场景中。
图源:演讲嘉宾素材
我们的产品特色主要体现在强本体、高智能以及易部署三大方面。强本体,即机器人拥有类人的外观与形态,这有助于其更好地适应不同的作业场景。而高智能,则强调机器人对于环境的理解以及应对能力,更好地利用周围环境信息,结合任务需求,做出智能应对。最后,易部署代表着我们的机器人产品开箱即用以及持续发育的能力,无需过多人工干预即可实现长期落地。
关于产品化的需求,我们致力于使机器人更易于被人类使用,并能在作业场景中实现快速部署。除了之前提到的外观与构型设计外,我们还通过类人学习的方式,使机器人在运动、移动、操作和交互层面都能更好地适配人机功能场景。在研发人形机器人时,我们特别注重其泛化能力,即让同一构型的机器人能够兼容并完成多种任务。这主要体现在三个方面:一是处理不同对象,如工业场景下的打螺丝、涂覆等,零部件与螺丝尺寸会不断变化;二是适应不同场景,如产线上的平地、上坡、下坡、走楼梯等;三是机器人需具备多种姿态运动能力,如测试通过、弯腰捡物等复杂构型。
解决方案与未来展望
为实现机器人对复杂任务的理解与执行,我们需要处理多模态、海量的数据学习问题。这包括不同传感器的数据以及不同任务带来的新挑战。因此,我想就我们在人形机器人研发过程中的实际思考与大家分享,以探讨如何加速机器人的发展,是否真的需要十年才能实现其在工业领域的全面应用。
目前,我们面临训练阶段高效性缺乏的问题,每个数据量往往针对特定场景或任务。因此,如何在现有数据量级下,使机器人快速学习,是我们训练阶段需要重点考虑的问题。此外,我们还面临监督数据丰富度不足、仿真环境不足以及数据需求高的问题。大语言模型的学习可以通过网络上的语料库进行,但机器人学习却受到构型、任务、环境等种种限制。例如,观看滑雪视频并不能直接让人学会滑雪,因为视频中的视角、构型以及发力方式等关键信息,都需要机器人与真实环境交互后才能理解。在部署阶段,我们面临的问题尤为突出,如工业上对不同零件的需求以及各种细小任务之间的差异。若采用经典的学习方式,将涉及大量的人力调整。
图源:演讲嘉宾素材
针对训练与部署中存在的这些问题,我们提出了一系列方法进行应对与优化。具体而言,我将从类人运动、类人操作和类人移动三个方面进行阐述。
首先,虽然我们强调数据驱动的方法,但仍需结合传统优化类方法验证来理解整机系统以及现有方法存在的问题。为了提升系统的稳定性,我们采用了动力学参数辨识、稳定域降低方法、落脚点规划和层级优化框架设计等方式进行应对。在研发过程中,我们发现了一个有趣的现象:机器人通过算法从平衡控制角度进行的自主优化,自然实现了双臂的类人摆动以及更加平稳的行走步伐,这不仅使得机器人整体动作更加自然,也验证了手臂运动对行走的辅助作用。然而传统方法本身仍依赖于较为精确的模型,并且对于累积误差较为敏感,在上斜坡或楼梯以及剧烈动态变化等复杂灵活的场景下,系统仍难以适配,这涉及到了泛化问题。因此,我们开始探索如何通过数据驱动的方式来解决这些问题。鉴于模型技术数据有限、仿真环境不佳以及机理不足的现状,我们提出了一个融合框架。该框架结合机理模型提供先验知识,利用人的监督数据提供引导,再通过强化学习的方式在环境中逐步发育适配,以实现人形机器人的长期部署。
此外,我们还进行了更具挑战性的工作,如演讲的姿态展示。这要求机器人在原地站立的同时,进行大幅度手臂摆动。难点在于手臂摆动过程中动量重心的变化,机器人需保持原地站立,对稳定性要求极高。通过数据驱动方式结合机理模型的引导,我们实现了机器人的稳定站立和复杂动作。总的来讲,在类人运动方面,我们通过机理融合的方式实现快速学习,在有限数据下实现产品的快速部署。
在家居与工业场景下,物品或零件的摆放零散且种类多样,为机器人的操作带来了挑战,对于泛化性提出了进一步的需求。我们通过高效的物体重构,视觉检测以及位姿估计实现了快速且灵活的环境理解,并基于环境理解进行了进一步的动作规划与生成,在服务场景中实现了机器人的自主端茶倒水以及零售场景下的人机和谐交互。未来,我们计划将机器人应用于更复杂的场景,如医疗、商超等领域。此外,在工业应用方面,我们同样取得了进展。与服务场景相比,工业应用更侧重于机器人高效、高精度地完成具体作业任务。我们通过构建一套高泛化能力的整体框架,适应不同环境中的工况变化,如摄像头位置变动、桌布更换或相机硬件参数变化等,从而确保了技术人员在部署时能够直接使用一套框架,无需手动调节即可完成适配。
此外,在人形机器人作业场景中,人机混杂的环境对机器人的移动能力提出了更高要求。我们通过局部规划层面的社交导航技术,考虑人机交互中的博弈策略,提升了机器人的移动交互性。同时,我们融合了大模型交互技术,使机器人能够快速理解当前环境,并通过持续记忆不断优化其表现。例如,在新环境中,机器人能够实现开箱即用,根据语音指令找到目标物品,并在一天的任务完成后进行反思,融合任务执行信息,逐步加深对环境的理解,从而不断提升性能。
目前,我们公司已锁定多个行业进行产业合作与项目探索,并已形成了一批合作项目,部分产品已实现交付。通过团队的构建和技术端的整合,我们实现了类似于“数据飞轮”的架构,提升了整体协作效率,并确保产品能够逐步迭代优化。我们期望在五年内取得显著进展,而在十年内真正让机器人走进千家万户,帮助他们完成人类的工作,从而实现人形机器人的产品化。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。