随着人工智能技术从“感知智能”向“行动智能”的跨越,如何科学、公正地评估机器人在真实物理世界中的实际能力,已成为制约行业发展的核心命题。在这一背景下,RoboChallenge组委会于2025年11月20日正式成立,标志着具身智能真机测评进入标准化、协作化发展的新阶段。组委会的成立旨在将 RoboChallenge 升级为行业级公共基础设施,通过标准化、常态化的运营机制,推动具身智能评测从“分散实验”迈向“共识共建”。
RoboChallenge最初由Dexmal原力灵机与Hugging Face共同发起,旨在构建一个开放、透明的具身智能评测平台。随后,智源研究院、智元机器人、Qwen、星海图、自变量、清华大学、西安交通大学、GOSIM等国内外知名机构与企业进一步携手,共同推动相关生态建设,促成RoboChallenge组委会的正式成立。这一跨领域协作模式,体现了行业对标准化评测体系的共同期待。
近日,具身智能领域就因一场评测乌龙事件引发业内广泛关注。具身智能模型评测平台RoboChallenge对多款主流开源模型展开真机测试并更新初步结果,原本旨在为行业提供客观参考,却意外掀起波澜。

基于Physical Intelligence(PI)系列构建的π0和π0.5表现出色,而国产开源模型表现相对平淡,自变量科技的开源模型WALL-OSS-Flow的成绩被部分自媒体以“零成功率”大肆传播,随后虽官方辟谣,但负面效应持续发酵,自变量机器人官网还疑似遭遇攻击。这一事件如同一面镜子,清晰映照出前沿科技与公众认知之间存在的巨大鸿沟,也凸显出具身智能在发展进程中面临的诸多挑战。

这一事件背后,反映出个别自媒体对具身智能模型这个前沿科技领域的诸多误解。具身智能本质上是软硬件一体的产品,具身智能模型与AI语言大模型“拿来即用、即测”的特性截然不同。当模型部署到新本体上时,需解决跨本体适配问题,涉及不同本体相关数据的迁移、转换以及测试接口的打通等复杂环节。Robochallenge的本体暂时不支持自变量模型主要的控制方式——末端控制,数据回放和对齐存在问题,双方正在进行软硬件适配,而接口调试过程留痕被截屏传播,便成了自媒体误解的源头。
误读根源:认知门槛与信息不对称
具身智能模型之所以自带“招黑体质”,与大众对它的认知门槛较高紧密相关。对于普通人而言,具身智能仿佛有一道无形的“壁垒”。大众难以理解,为何机器人能完成炫酷的舞蹈、跑步、格斗动作,却无法在工厂里精准地打好螺丝、做好家务。即便与行业有一定接触的媒体人、投资人,对于其中的技术原理也常常一头雾水,容易被误导。
信息不对称也是滋生误读和骗局的重要原因。媒体《蓝鲸财经》采访某大学机器人系统架构师报道称,国内有些初创公司,甚至是部分知名公司采用遥操作的方式拍摄demo,并将其包装成“全自主智能”,误导投资人判断。为应对此类骗局,某知名投资机构专门组建了理工科博士团队,以提高对技术问题的鉴别能力。专业人士尚且需要如此谨慎,普通大众面对市面上形形色色的具身智能模型信息,出现误读也就不足为怪了。
如何穿透迷雾,看见真实?
那么,该如何客观评估一个具身智能模型的真实能力?业内的共识高度一致:现场的真机演示,是试金石。
清华大学交叉信息研究院助理教授高阳曾给出建议:面对号称能叠衣服的机器人,不妨将衣服团成一团随意丢弃,或替换为裤子、外套,观察其能否应对这种“意外”与泛化需求。
自变量创始人王潜的观点与之呼应:“视频demo有太多可以造假的空间。必须去到现场,甚至与机器人互动,进行人为干扰,观察它在各种极限情况下的表现,才能真实体现模型水平。”
值得肯定的是,包括千寻、自变量在内的多家国内公司,已在世界人工智能大会、世界机器人大会等顶级展会上,公开进行了真实的VLA具身模型操作演示。敢于在开放、不可控的真实环境中接受检验,本身就是技术自信的体现。
但必须厘清的是,评测平台的标准化测试,与展会演示仍有不同。 前者要求模型脱离“原配”本体,适配全新硬件平台,这是一个巨大的技术挑战。以PI开源的π系列模型为例,尽管开源已久,但国内企业在其基础上微调后,仍难以完全复现PI团队在其自有机器人上的表现。这再次印证了具身智能“软硬一体”的特性和跨平台适配的高门槛。
国家战略下的长跑:耐心与求真铸就未来
尽管前路充满坎坷、误解频生,但具身智能的战略意义与未来潜力日益凸显。2024年3月,“具身智能”首次被写入工作报告;10月,“十五五”规划建议明确将其纳入未来产业重点布局。这标志着发展具身智能已上升为国家战略,成为全球科技竞争的核心高地。
中国在这一领域具备独特优势。作为全球唯一拥有全部工业门类的国家,叠加丰富民生场景,能为具身模型提供海量多元的真实数据“燃料”;同时,在硬件供应链、数据采集成本等方面也具有显著优势。以自变量为代表的自研基础模型团队,已在某些任务上展现出可与美国同行媲美的泛化能力,证明了国内创新者的技术潜力。
任何承载未来愿景的前沿技术,成熟都需经历漫长、曲折且充满噪音的迭代过程。具身智能正努力为机器注入“常识”与“物理直觉”,面对它,我们需摒弃急于求成的误读和轻率判断,秉持穿透表象的求真精神与战略耐心。因为最终定义这项技术价值的,不是一时的榜单或流量喧哗,而是其在真实物理世界中稳健、可靠地延伸人类能力与梦想的能力。在国家战略支持下,中国具身智能产业有望在这场长跑中脱颖而出,为全球科技发展贡献中国智慧与力量。