当前位置:首页>>互联网-泡泡

和机器人做工友?华为博士天团详解盘古具身智能的工业落地

  • 2025-06-24 10:25:35
  • 超级管理员

6月20日-22日,一年一度的华为开发者大会(HDC 2025)隆重启幕。大会期间,AI科技创业者、Al畅销书作者、人工智能头部自媒体博主GenJi(李艮基)携手华为博士天团,围绕盘古NLP大模型、盘古世界模型、具身智能,以及预测大模型四大核心内容,展开了一场深度技术对谈,华为AI领域核心研发团队首次集中揭秘,干货满满!

67731beff26907605a72a8330903d89

以下是本次直播实录“具身智能”部分——

3合

Genji:关于具身智能,大家有很多好奇的领域,大家接触最多的是人形机器人,那么,现在人形机器人和各位研究的领域有哪些差异?

周博士:现在大家经常可以看到双足人形机器人的展示,行业里也有非常优秀的公司,如在春晚上火爆的宇树科技,这类公司更多的是侧重于机器人本体设计、机电系统以及运动控制,这是让机器人稳定、可靠动起来的基础,也是让大众能快速领略到机器人魅力的很好的切入点。例如,我们可以让机器人模仿人类跳一段舞蹈,或让机器人穿过一段崎岖的山路。在机器人能很好的动起来之后,还有一个更大的挑战,是如何让机器人聪明的行动。比如像人一样,让机器人可以通过看说明书,技能组装起一套复杂的家具,或是使用手机导航就能找到想去的咖啡厅,购买一杯咖啡并带回家等。这些能力需要机器人对3D空间有非常深刻的理解,能够执行长序的物理推理,能预测其采取的行动,将对物理世界产生什么样的影响。这些是我们当前更关注的技术。但是这还不是我们最终的目标,当前,还存在许多类似于矿井下的高危工作环境,也存在可能导致尘肺病等职业病的恶劣工况,所以我们非常希望将机器人应用到这些场景中,让机器人超越人,解难题、做难事,体现科技的价值。

王博士:不同于业界通常展示一些家居生活场景的应用演示,华为云更加关注如何让具身智能技术深入各个工业制造领域中,帮助工业产线提高效率。但工业场景相比于家庭场景有一些特殊的地方,首先,因为大多数工件都比较精密,装配冗余孔隙仅有毫米级甚至更小,这对机器人操作的控制精度要求非常高;其次,工业场景对于整个任务完成效率也有非常高的要求,因为一旦成功率过低或速度较慢,都将影响产品的出货周期;最后,从机器人本体形态来看,家用场景未来可能会收敛到人形机器人,但工业场景应用的机器人形态可能会非常多样,有可能是单个机械臂,或者一辆小车,甚至挖掘机都有可能成为具身智能技术的载体。所以如何让不同类型的本体都能够适配我们的技术,是非常重要的挑战,也是我们需要攻克的问题。

Genji:请四位详细介绍一下,在具身智能开发落地的过程中,我们现在正面对哪些难题,以及最难的是什么?

周博士:在我看来,现在具身智能没有最难,只有更难。其实提到智能,大家可能会想到经典的AI三要素,即算力、数据和算法。但面对具身智能,这是需要探索的AI的下一跳,我觉得三要素需要稍微做一些转变,更需要大家关注数据、算法以及机器人的本体。如果这三个要素不能协同,整个具身智能系统就无法扩展,也就谈不上对算力的巨大的需求。6月20日的HDC主题大会上,华为常务董事、华为云计算CEO张平安专门强调,我们不做机器人的本体,目前更加关注具身智能的数据、算法以及对应的平台能力,下面这一页幻灯片,刚好也展示了我们现在正在做的具身智能从数据到算法迭代的平台原型,这一套原型现在已经交付给了我们的部分伙伴使用,并通过在他们工作现场收集的反馈持续优化。这个平台的整体理念,就是让机器人在数字世界中学习,在物理世界中调优和运行。具体来说,先通过Real2Sim的技术,让物理世界快速数字化,随后借助数字世界中仿真引擎合成、生成式AI等技术,大量生产多样化的数据,而这些数据的多样性问题在物理世界是几乎不可能被解决的。有了这些数据之后,通过一套完备的数据工程管线,将所有数据处理成具身智能VLA模型训练所需的状态,并在云上完成具身模型的训练。最后,我们进一步挖掘云仿真的价值,通过算法构建成百上千的测试用例,对模型能力进行测试调优,再通过端云协同机制,讲最优的模型能力推送到机器人的端侧运行。

张博士:数据难题我有切身体会,我经常与客户聊,每个客户反映的问题都是,数据从哪里来,怎么样构建数据。这里为不熟悉具身的同学介绍一下,目前来说大部分客户采集数据的方式都是人工的:通过穿动捕设备采集数据,或者遥控机器人让机器人执行动作,在这个过程中采集数据。但大家应该能够想象这样的人工采集方式,它是有瓶颈的,取决于机器人数量的多少,以及数采员采集效率的高低。倾全国产能来说,一年大概只能采集千万级别的数据量,而这个数据量用来训练模型显然是远远不够的;另外,实采数据还有缺乏多样性的问题。比如,训练机器人倒茶这一动作,比如让机器人在这个木质的桌面上反复倒茶、收集数据,而这些训练出来的模型,或许换一张大理石桌,就不一定会执行成功了,因为在训练数据中没有见过这样的场景。而这类问题恰好很适合仿真合成数据解决,因为在仿真环境里,我们可以轻松改变桌子的材质、环境光照、物品布置等等,这样采集的数据和训练的机器人技能都将更具备泛化性,另外这样通过仿真合成构建数据的速度也会比人工采集的方式快很多,所以我们也在真实的客户项目中广泛应用了这样的技术。同时,最近我也注意到一个新的方向,有客户问我,最近生成视频很火,有没有可能将生成视频这个技术应用到具身数据积累和模型训练里,那我知道王博士最近就在研究这个方向。

王博士:是的。刚才说到视频生成技术非常火,具身智能数据又非常短缺,所以目前我们正在探索如何利用基于可控条件的视频生成技术生成符合我们要求的具身智能数据。视频生成当前存在的一个难题是它生成视频中的机器人动作不符合实际需求,例如不满足基础的物理约束条件。为了解决这个问题,我们探索将深度图像作为视频生成模型的可控输入条件,通过视频生成模型做视觉渲染,来保证生成视频中的机械臂运动轨迹符合我们的要求。此外,合成的数据还存在仿真到真实的迁移差异较大的问题,我们通过直接在真实视频数据的基础上,做一些光照背景变换,或者修改被操作物体等少量元素的编辑,从而尽可能缓解这一问题;

马博士:总结来说,我们为什么要推出具身多模态技术,其实就是为了降本增效。首先是降本,我们的生成技术可以减少仿真环境搭建的成本,实现短时间内不去改变原本的仿真环境,就可以增加许多不同纹理、不同背景的数据;其次是增效,因为在真实场景中,真实数据采集是非常有限的,视频生成技术可以极大程度分成它的数据集,从而让我们的模型越来越泛化。

Genji:我分享一下自己的想法,人工智能发展是在1956年美国达特茅斯会议时产生的。人工智能从笨到变聪明的过程,经历过很多卡点和细节,这可以概括成两种动物,一是鹦鹉学舌,给木桌上的杯子倒上水,鹦鹉只知道这个动线;二是乌鸦,聊人工智能绕不开的一个词是涌现,涌现是复杂学科里的词,无论人的大脑如何协作,多项神经元如何传递信号,到具身智能里面,这个情况都会更加复杂,因为在乌鸦的能力中,它对现实世界的理解相对深刻,如乌鸦观测到汽车能够撞开坚果,汽车也能撞到自己,而红绿灯能够控制汽车,发现这三件事以后,它就可以在亮红灯的时候叼坚果,把坚果丢到车群中,让汽车开坚果,亮绿灯的时候飞起来,所以乌鸦就具备推理和思考的能力。我们从鹦鹉到乌鸦,这是一个逐渐学习或者是让它理解、思考世界的过程,让机器人变聪明指的就是这一过程,而这个过程一定会面临非常多的挑战和纷纭复杂的协作。所以请教一下各位,在这一过程中,技术上是如何实现让机器人工作的?

张博士:我举一个真实的案例,客户是如何与华为一起,让机器人变得更聪明的。这是我们在上海的客户——国地人形机器人创新中心。该创新中心希望达到的目的是构建具身的数据,并且基于具身数据训练具身模型,引领行业发展。为此,创新中心搭建一个大型的物理训练场,并购买了很多机器人,让其在真实的物理训练场里执行各种任务采集数据,但很快,客户发现通过这一方式采数据、积累数据太慢了,于是找到了华为云。我们进入项目组后,开始与客户联合创新,并试用我们的方案,详细来说就是我们先通过重建的方式,快速帮助客户将物理训练场数字化,构建了物理训练场数字孪生体,我们通过随机化使得训练场的场景变得多样化,并让机器人在这样的环境中执行导航和操作任务,继而积累大量的数据,当数据量积累到一定量的时候,就会涌现出“乌鸦躲避汽车”这个智能。

Genji:在这里面还有什么其他的案例可以分享吗?

周博士:接着张博士提到的上海人形伙伴,我们还联合孵化了针对工业转运任务的具身智能创新方案。工业转运是工厂里非常常见的任务,工人需要找到对应的货架,并且找到对应的料框、拣选对应的物料,然后将这些物料汇总到产线上。由于需要拣选的物料种类和数量都不确定,所以这个过程的非常柔性且长序的,按照传统的机器人开发方法,很难解决这种问题。我们现在的方案是基于上海人形采集的虽然少量但是高质量的数据,通过引擎合成和生成技术,以十倍到百倍不等的量级生产更加多样化的合成数据。因为不同的数据配方会导致不同的模型效果,所以将不同来源数据,以不同配比进行模型训练与评估测试是至关重要的。我们通过一套数据配方的研究,把不同的数据配比、模型训练、模型在数字世界里的多样化测试与调优,整个过程借助Agent机制自动化的联通,这样用户就可以快速拿到最好的模型。最后,我们再通过端云协同的形式把能力推送到本体,这样就可以在物理世界中进行空间理解、物料拣选、自主导航等任务,最终完成工业转运需求。

马博士:以华为手机打包场景为例,这里涉及了20多种操作步骤,10多种操作对象,以及包括推、拉、抓、吸等6种操作技能,面对这样复杂且长的任务,我们首先借助具身规划模型,即刚才所说的“乌鸦大脑”,去做自主的规划以及任务拆解,把任务分解成一个一个子步骤,同时在模型运行过程中,万一发生各种报错,规划模型也能够根据真实场景重新规划,保证任务的顺利进行;此外还有一个具身执行模型以及性能库,它们需要做的是接收子任务文本指令并完成整个动作,我们的具身执行模型需要在位置不固定、光线光源无法预测、不清楚背景等情况下,依旧鲁棒的完成任务。另一个例子是水浸线的理线场景,机械臂需要将水浸线依次扣入卡扣中,在这个场景中,我们使用VLA模型融合3D点云信息,3D点云信息能够更好地解决线悬空时的情况,精准识别高度,提升任务成功率。此外,我们也能够做到在一定的干扰之下顺利完成任务,包括遮挡的干扰、光线的干扰、人为错误干扰等。

Genji:HDC主题演讲中,平安总发布CloudRobo平台服务的用户是谁?做哪些工作?请科普一下。

王博士:我们更多面向的是工业场景。工业应用的一大特性是场景非常分散,且每个细分场景的专业化程度很高,所以工业应用中有很多只聚焦在自己垂直领域的中小型企业,且这些企业大多自动化能力很强,但智能化水平不足。此外,他们并不需要通用的具身智能,他们只希望针对自己的产线需求开发相应的具身智能技术,用以解决他们产线的问题,达到降本增效的目的。对于这类玩家,如果想自己完全独立开发具身智能技术,则需要搭建平台底座,成本高难度大。因此,我们基于这样的需求因素,开发了CloudRobo具身智能平台,它能够提供包含数据处理、模型开发、云端部署等一整套面向具身智能解决方案的开发工作平台,我们希望借此赋能不同的机器人厂家和行业应用场景。另外也可以看到,我们还有R2C协议,平台面对不同的机器人本体,涉及的关节、传感器类型都是不一样的,为了让我们的平台和不同类型本体有效对接,就需要设计一套统一的标准,同时我们也在倡导与联合各个机器人本体伙伴,共同构建R2C协议,即Robo to Cloud协议,构建通信接口、数据接口和指令接口,使得平台能够无缝对接机器人本体,赋能各种各样的伙伴。

Genji:请问四位对整个具身智能在未来发展趋势有什么思考和洞见?

王博士:接着CloudRobo平台来说,当前具身智能发展尚处于初期阶段,大家都是围绕一些零散的点做探索,有的做一些模型网络结构改进,有的探索不同传感器的组合能够带来什么样的效果。未来,随着具身智能数据的逐步增多,我相信整个技术路线会逐步走向收敛。到了这一阶段,大家在基础场景下的能力都相差无几,更为关注的是一些难例场景下的挑战,如何解决一个又一个的难例场景,这就需要一整套高效的数据闭环能力来帮助模型实现快速迭代,快速适配特定的问题和特定的场景。CloudRobo平台也是基于这样一个目的。我们构建各种各样的工作流,并且把这些工作流进行有效连接,包括数据的自动化标注、有效数据的挖掘等,模型训练后可以进行自动化评估,从而帮助模型实现快速迭代,使得未来模型竞争力越来越强,也能够实现模型和应用场景的正向闭环。

张博士:由于我接触的客户和实际应用较多,所以在这里我稍微拆一拆周博士的台。刚才提到的拣选和转运的工业部件案例,我在实验室里见过各种各样五花八门的失败,在我看来,具身智能还处于很初期的发展阶段,但它的未来一定是非常光明的,只是这个过程会是螺旋式上升,需要经历不断的演进。这里我特别想引用我喜欢的音乐剧《汉密尔顿》的歌词:这个世界是如此的宽广。具身世界如此宽广,它容得下本体厂商,也容得下华为云这样为本体厂商赋能的企业,更容得下提供各类解决方案的集成商。我们希望所有人都能够在CloudRobo平台,共同为具身智能行业发展做出自己的贡献。

Genji:刚才张博有提到一个词,叫做“千行百业”,最开始B端找的是千行百业,C端找的是千家万户,所以是否将来会达到这样一个时刻,这个时刻又是如何迈进的?

周博士:拿千行百业来说,刚刚我们提到的工业场景、矿山特种场景,都是值得关注的方向。但这个方向里的区间特别大,比如说,相对结构化的工业领域,未来一到两年,就能够陆续有落地成果展现;而更加复杂的矿井环境,则需要3年,甚至更长时间才有落地可能。与此同时,像商超零售、酒店整理、餐厅后厨等商业服务领域,也会在未来的1-3年,陆续有落地成果被看到,但这些都是B端。你刚才还提到千家万户,这就是一条C端的线,比如机器人进入家庭陪伴,甚至养老。家庭陪伴这个会很快,行业里已经有不少优秀的公司正在朝这个方向做商业化探索。而真正意义上可以照顾老人的机器人,几乎能算具身智能领域的圣杯问题之一了,5年是一个非常乐观的估计,大概率需要更长的时间。

马博士:补充一点,在To C端,真正走进千家万户之前,我认为主要面临两个问题,即安全与伦理。比如,机器人是否会伤人、如何建立机器人安全监督机制,以及伦理,在机器人代替人类工作后,人的价值将体现在哪里,人类又应该从事怎样的工作,这些问题是包括我们、我们的伙伴,以及每位具身行业的从事者,都需要持续思考的问题。

Genji:关于未来的发展趋势,各位还有什么补充吗?

周博士:关于CloudRobo平台的愿景,因为物理世界的各种探索,很多情况下后果是不可承受的,所以我们通过在数字世界中,发挥强智能和大数据的优势,先把问题解决到90分,再迁移能力去机器人本体,在物理世界继续调优。这是我们对具身智能如何最终走进千行百业、千家万户的一点思考与策略。

王博士:CloudRobo平台最上面一层是安全监督,我们希望通过云端赋予强大的安全监控,一方面有效制止机器人在实际的应用中出现任何可能会损害周围环境的行为,另一方面,希望在仿真环境中对可能会发生的事情做出一些预测,达到提前干预的效果。

Genji:请各位博士分享一下对具身智能的未来有哪些比较好玩或比较有意思的展望。

马博士:在我看来,目前我们的用户期待值还是非常高的。实际上在真正工作中会发现,目前我们的机器人还处于非常初期的阶段,对我们来说它还是一个小婴儿,我们要不断的教它学习各种技能,至于未来它会做什么样的事情,还需要通过我们的平台、数据一起去构建。我个人非常想要的是,机器人未来有一天可以代替我上班。

周博士:刚刚大家也提到这个行业还处于非常早期的阶段,但从技术的角度出发,积极的信号同样存在。比如,虽然现在具身智能的技术投入百花齐放,但基本是沿着多阶段VLA的路线在发展。已经被实践证明,复用大语言模型中非常成熟的训练链条是有效且远没有触达上限的。也走出了像π0.5这样非常优秀的具身模型,在垂直领域展现出优秀的泛化性。这给出了一条能不断延展具身智能体能力的路径。今天,我们讨论的所有话题,无论是数据、模型、本体,都会参考这条路径的指引向前探索。

张博士:我个人来说,倒是希望机器人是更通用的形态,不仅帮我们去上班,还能在家里帮我们做家务,甚至等我老了以后,还可以帮我养老,这虽然是很远的愿景,但还是充满期待的。

王博士:具身智能的前景非常光明。大家都说AI是工业革命,一直停留在互联网上或只带来少量的生产力提升,并没有促进社会生产力突破性的发展,但具身智能就是这样的技术,能够真正把AI运用到提升社会生产效率等各个方面,会给人类社会带来质的发展。道路是曲折的,前景是光明的,所以我们要朝着这个目标不断努力。

Genji:最近,我刚读了一本OpenAI研究员写的书,为什么伟大不可复制。当初OpenAI发明出来时,里面涉及到了一个基本问题,最开始在解决迷宫难题时,起初让线条把所有的路线都走出来,最后找到一调最短线条,这件事情听起来特别像是急功近利探索人生或路线最优解的过程,最后提到,为什么伟大不可被复制,就是这不是目的,而是探索过程,不预设非常强功力性的目的,就只是让线条和点进入迷宫瞎转悠,这种松驰的机制反而能够产生更多聪明的感觉,或许它晃着晃着便能解决更为复杂的问题。

周博士:您提到的这个观点恰好印证了我们的一些观察,在具身智能往前演进过程中,需要哪些学习范式。我刚才提到的VLA,本质上还是模仿学习,也就是说,它的上线实际上是人类喂给它多少数据,它就有望学到怎样的能力。那机器人究竟要怎样超越人?其实就不应该给它设限,让机器人通过自己的探索找到最适合自己的工作方式。这种情况下,我们依然希望发挥数字世界的优势,提供多样的交互式环境,让机器人可以在里面随机交互探索,并及时获得反馈与奖励,这种强化学习+VLA的方式是探索机器人真正超越人的一条路径。

张博士:我见过周博士在实验里做的机器人,它没用夹爪将想要的东西抓起来,而是用吸盘。在仿真里进行学习的时候,我们没有设限,结果机器人的吸盘在手腕关节的位置进行了360度以上的旋拧,而我们人的手腕因为旋转角度的受限,往往需要多次旋转,机器人却可以连续旋拧、达到比人更高的效率。我当时眼前一亮,原来这也可以?我想这就很好的回答了您刚才问到的问题,当没有设限的时候,机器人反而变得更加聪明。

马博士:刚才说的就是探索与利用,我们通过这样的方法模仿学习后,再进行强化学习,让它在环境中不断的自主探索。目前,在工业场景中,它能够非常好的提升成功率,包括离线场景,我们都采用了这样的技术。

Genji:我比较好奇,机器人在各种电影、小说里面,会与人类产生更强的交互,机器人可以为人带来情感上的陪伴和依赖,也会和人类战斗,所以各位觉得这种时刻是否会到来?什么时候机器人会像人一样产生各种念头,当机器人足够强大的时候,这个念头是否会爆发,从而产生伦理安全问题?

王博士:刚才提到了强化学习,随着强化学习的发展,一定出现这样的情况。模仿学习让机器人只能从这些知识学习中抽象总结一些知识,或者进行归纳演绎推理。但在强化学习中,我们不会设置它什么步骤是正确的,什么是错误的,只有一个模糊的奖励目标。它将通过自己的探索,自主去发现什么是正确,什么是错误。如此一来,它便会产生一个更加涌现的情况,不是我们人所能预期的。我们所有的目标都是在探索,就像在生活中,我们会自己给自己一些规定,机器人同样。

张博士:还是需要有伦理边界,就像我们原始人也是自由发展,但到了人类文明社会就开始有边界,如我们的法律、道德共识等,机器人说不定也会有共识,从最早的三定律,到后面演变出机器人法律,机器人监狱等,虽然我只能设想,但我认为强化学习过程中,为了让机器人能够在物理世界里与人和谐共处,还是应该给它设置一些基本的道德和法律边界。

Genji:引用周博士最开始提到的一个词汇回答这个问题,就是科技向善。其实无论是机器人还是人,或是真实世界里出现的所有物体,我们都需要给它相对收敛的规则和边界,就像法律是道德的底线一样。在启蒙运动时,哲学家莱辛提到人生毫无意义,人探索的过程就是意义本身。我们看到人工智能、具身智能的发展,其实就是无边界探索,但它本身就足够有意义、有内涵。

由数字化仿真、数据合成,以及模型等关键技术出发,以“科技向善”为落点,华为云正通过CloudRobo具身智能平台为起点,不断探索具身智能在工业等更多场景下的应用。展望未来,以华为云为代表的科技企业将持续探索人工智能与机器人的结合,合力共识共建,为人类的长远发展服务。


  • 关注微信

猜你喜欢

微信公众号