圆桌对话:聊聊具身智能的共识与非共识

12月8日,地平线首届技术生态大会(Horizon Together 2025)在深圳启幕。大会以“向高同行”为主题,汇聚全球汽车产业链头部公司,聚焦“加速全场景辅助驾驶量产普及”的阶段性使命,分享前沿实践,凝聚关键共识。

其中在“从智能汽车到机器人的技术跃迁”专题论坛上,本末科技创始人兼CEO张笛、极佳视界创始人兼CEO黄冠、优必选研究院A1大模型与交互部负责人石海林、香港大学数据科学研究院助理教授李弘扬、地瓜机器人CEO王丛等多位嘉宾就当前具身智能领域的共识与非共识话题展开了深度探讨。

圆桌对话:聊聊具身智能的共识与非共识

圆桌正文:  

现在,我们即将进入今天下午的圆桌对话环节。本场圆桌的议题为:「名」人不说暗话:聊聊具身智能的共识与非共识。

今天很高兴邀请到极客公园创始人张鹏先生来担任本场圆桌的主持人。作为一名拥有超过二十年经验的资深科技观察家,他始终身处创新一线,对中国商业与技术的互动演进有着深刻而独到的理解。下面让我们有请张鹏先生登场!同时,有请各位对话嘉宾一同登台。掌声欢迎各位!

 张鹏:非常高兴今天来到地平线机器人生态大会,应该这是第一年办这个大会,我一直能感受到这个大会可能未来对整个行业有持续的影响。而且确实跟余凯认识很多年了,从地平线的诞生就一直目睹这家公司发展,其实他刚才说得挺真实的,早年间他也一直跟我说,不管是智驾还是具身智能,这件事都保持比较悲观,但我觉得他的悲观是不同的聚焦,有时候你的悲观只是让你不过度浪费自己在这个阶段的经历,但是他可以迅速从悲观转向乐观,这可能是技术创新里面非常重要的能力。

今天我们的圆桌还挺有意思的,我们有搞技术的,搞产品的,还有搞研究的,几个维度凑在一起,正好能拼成一个有意思的拼图,而且大家的技术路线各方面也不一定都一样,所以顺着这个视角,可以开启我们今天的探讨。争取把里面的一些共识也好,非共识也好,能碰撞出更多的火花。我觉得开启的第一个话题还是去聊一聊最近也比较热的所谓的人形概念,我知道本末是做直驱型的机器人关节对吧?但我反而想把人形这个问题先问你,因为你肯定在这条线上是看过人形和双足这种形态的,那你们还会坚持往这方面去走,这里边你怎么理解?就是双足这个事儿,今天可能会遇到的挑战和包括你为什么当时选择的是另一个不同的路线,先听听你的观点。

  张笛:首先是本末我们自己一方面有一个直驱型的机器人关节的特色技术平台,另外一块是以轮足为特色的具身智能的机器人技术平台。我们选择这个方向出发点跟刚才张鹏老师讲到的,我们作为技术型的创业者,对乐观和悲观我们到底应该怎么看,怎么样去建模?因为我个人包括我们整个团队其实一直是对未来持有无限乐观,但是对中短期的界限,会尽可能保持悲观的状态。硬科技有一个特点,别到最后创业未半中道崩卒,还没等实现自己的技术愿景,反而最后导致自己的经营上出现问题,所以我们本质上建模可能会倾向于用这种方式,去做公司未来技术路线的选择。

在这个路线下面,我们去看人形机器人和轮足这样的形貌,其实核心的差异点是在于我们对移动和操作这两个大问题上,我们到底选择什么样的解题思路,一种解题思路是纯仿生,另外一种是不单纯的仿生,不只仿生,我们倾向于第二个。从人形的角度来看,当然可能有很多人会说人形会有很多落地的场景,我们也从来不排斥这样的观点和看法,但是我觉得今天的主题也比较好,名人不说暗话,还是虚火过剩的,我还是觉得这个行业是很强的。

    张鹏:说的是虚火,一定是今天有什么问题不好解决,大家的热情可能会往墙上碰到一些阻碍,你觉得问题主要卡在哪?

张笛:我觉得问题是现在其实大家对这个行业的关注是够的,这是非常好的一件事儿。因为任何一个行业都需要有一定的show off的能力,让大家有足够的传播点,但是问题在大家只关注到了其中的一方面,大家只关注机器人这个大品类当中类人形的一方面,这件事情是不够健康的。其实机器人这个品类有非常多可以选择的余地,甚至说仿生、拟人都只是一个可以选择的方向,这个行业有无限的可能,这就是为什么我们说对未来无限乐观,但是对现在却保持相对审慎的态度,我们觉得机器人这个赛道可以走伴生的模式非常多,但是现在似乎有太多狭隘,把所有的精力和资源投在一个角度上,这就是我们倾向于未来在双足和轮足上面,我们会朝着非拟人、非仿生这个方向探索的一个主要原因。

张鹏:所以你是相信未必要去拟人,更愿意做超人的一些东西,所以超人的场景和拟人的场景会多?或者超人比拟人在有些场景里有更好的解法,是可以这么理解的一个逻辑吗?

张笛:可以这么理解,而且我觉得最主要的是,拟人作为一个大行业的入场券,没有任何的设计参照,开始想尽办法去开启一个行业,这个起始点非常好。但是随着一个行业的向下发展,总会发现,其实垫脚石下一步踩在哪?英雄老路未必是最优解,我们有非常多的思路告诉你,机器人是新物种,可以完全设计一个新的产品,这个对整个行业来讲是最健康,最有诱惑力,对我们年轻的人来讲也是最有挑战的方向。

张鹏:张笛是大概四年前,那时候还是一个稚嫩的创业公司,被邀请到极客公园创新大会的舞台上,我们尝试去点亮,赢得一些关注。现在好多了。那我觉得刚才你的观点很鲜明,我问问石海林总,不是我挑事,但是他刚才说的这个点,也确实说双足人形注意力比较集中,这是过去几年的真相。今天大家也在看不同的形态,你的视角下,为什么人形、双足这个事还是对你们来说是非常关键的点?

  石海林:这个问题,我们优必选作为人形机器人的先行者以及行业龙头,我们会很务实去看人形机器人,包括双足轮式,都是属于人形机器人,回到这个问题,我觉得可以从两方面去看。第一个我们追根溯源,去看人类为什么是人形的。从大自然还有生物进化千百年来看,人之所以成为人形,我们的四肢,我们的手有五个手指头,我们的五官在头上,我们大部分人的眼睛的距离平均在6厘米,为什么大家都是这样的,其实背后是因为适应了自然环境和我们人类社会环境的结果。

今天我们来看人形机器人,它去做到人形,其实更多的不是说我们一定要做到怎么样,而是说从自然最优化的结果拿到了一些结论,用在我们人形机器人的产品和形态上,这是第一点。

第二点,我觉得更多也是可以从产业的应用场景去看,就以优必选我们现在聚焦的工业场景(来说),人形机器人现在主要有三大应用场景,工业场景、商业场景以及家用陪伴场景。后两个商用场景和家用场景,因为还有一些交互和情感陪伴的需求,这些需求会更直接的去对人形外观、ID设计甚至仿生人形有更高的要求,这些还是比较直接能得出的结论。从工业场景来看的话,为什么我们也要去看人形在这个场景里的优化,因为在工业场景,通过长期以来的应用,我们可以看到有大量的结构化任务,也有更大量的非结构化任务,这些非结构化的任务从需求出发,去要求产品和功能要具备更强的泛化能力。在我们在工厂看到,各类形形色色的机械臂各种捶打,但是只能做一些特定的死的任务,而且形态各异,动不动4、5米高,特别大。

但我们看到更多的任务,是比如说物流转运,里面包含了搬运、分拣的任务,还有上下料、精密装配,他们的场景很多是一些狭窄的通道,一些灵巧的柔性的操作,这些对机器人的操作更高,泛化能力也更强。比如这些操作、搬运、上下料,所以在这些场景需求的催生下,我们会往人形这个方向去看。

张鹏:所以还是因为这个社会是人构建的一个社会,现有的这种大的商业环境也好,工业的环境也好,人是重要的生产力主体。所以即便我们要引入新一代的生产力,最好还是别面临根本性的改造,人是不是能被替代,这个是容易思考。是不是还有一个数据的维度,最近也听到一个视角,人形是因为它容易做数据迁移,我拿去做遥操也好,或者采集这样的数据,它在数据的循环上跑得更好,这个也是你们感知到,真的存在这样的效率优势吗? 

石海林:对的,人形数据相对其他形态的数据更容易采集获取、标注清洗。以遥操作采集为例,如果设备与人形,比如手部、双臂,是同样的甚至同构的,那么操作员操作起来会更高效便捷,同时培训一个数量的操作员也更简单容易。 

    张鹏:我这里再补充问两位同样的问题,大家简短地说一下你们的判断逻辑。因为现在大家讨论,可能轮足更是这样,它是未来设计通用的东西,还是未来通用的基座加不同的任务包、任务能力,分散到不同的场景适配会更好?人形现在看起来,好像大家都走了通用的概念,会不会未来它是一个底盘加应用,还是未来就是一个统一的啥都能干? 

张笛:其实本末科技在观察行业生态时有很多发现,因为我提到,我们公司是平台化的机器人供应商,我们是有关键技术去服务客户。在这个过程中我们发现整个具身智能大的方向可以分两类,按照张总讲的分类方法,但我们的叫法会叫成学院派和产业派,其实相差最主要的点,学院派是自上而下,以通用为大旗,去把所有的相关的技术去做推广和积累,但产业派就是循序渐进去做通用,本质上就是一个基座上面叠加模组。这两个一个是自下而上,一个是自上而下,但是我们从统计上来看,产业派的速度和市场化的速度确实没那么快,假如大家认可,以底层的通用化平台加各种各样的功能模组逐渐去做通用这件事,是一条通向具身智能的道路的话,现在从商业化的角度,还是产业化会推动得更快一点。 

   张鹏:石海林你怎么看? 

 石海林:我完全认同张笛总的观点,在产业派这一块,我们自下而上从场景任务出发,构建海量的数据,以及基于算力的一些资源和优势,去快速把学术界从上而下的基座模型应用在具体各类场景中。而且这个周期我们认为是一个绝对的加速化的过程,因为我们看到,比如十几年前我们说做智能化,那个时候是做感知智能,如果我们比如以AlexNet作为标志物,作为开端,到2022年,比如说那会儿ViT作为一个成熟标志的话,从发展到成熟感知智能花了十年时间。但是在感知智能的下一阶段,交互智能如果我们以17年transformer出现为开端,到它成熟期,比如说正好三年前ChatGPT发布作为一个成熟标志的话,这个过程从十年加速到了五年。那我们今天来看具身智能这一块,如果我们以ALOHA为代表,他打通了Neural Network在具身智能这一块的技术方案。所以我们可以把2023年作为起始点的话,假设我们也是以最保守5年来估计,从23年到28年,今天来算的话可能就三年,或者18个月,就已经进入到成熟期,这个周期是大大加快。 

张鹏:刚才这两位聊了聊在形态上面和发展路径上可能的预期,我问问黄总,因为你们几家搞世界模型,世界模型在智驾领域,到底现在能解决什么问题,还有什么问题有待解决?能不能给我们一个比较清晰的技术进展和世界观?

黄冠:我觉得这个问题提得特别好,像“世界模型”“空间智能”这些概念都备受关注。大家探讨其在内容创作、自动驾驶以及具身智能等领域的应用时,我想先讲讲我个人对世界模型对具身智能领域价值的一些看法。

我认为世界模型是物理AGI最后的瓶颈,并且它不是要5年、10年被攻克掉,实际上我们已经看到了它被解决的曙光,得益于整个生成式AI的发展,这是我对整个世界模型大的看法。

更具体,世界模型对具身智能的价值是全方位的。其实我们讲一个具身模型,无非就是讲数据来源、学习范式,以及模型架构。世界模型在这三方面都有非常高的价值,首先数据来源,如果具身智能仅仅依赖真实机器和传统仿真这两种方式,可能会存在比较大的瓶颈。真机要采集到足够的数据极其困难,基于规则构建的传统仿真上限也比较受限。而世界模型提供了一种非常高效生成世界的方式,虽然它目前并不完美,但已经展现出巨大的价值,它是一个数据引擎,能够为具身智能提供无限的所需的数据。

第二个是在学习范式上,模仿学习很有价值但是远远不够,强化学习如果只是依赖真实环境去做,也是很低效的,包括大家现在看到Pi0.6 star,虽然已经进步很大了,但仍然高度依赖真实环境;而世界模型实际上为强化学习提供了一个非常好的闭环环境,它是能够被action驱动的,来预测未来环境变化的模型。 

 张鹏:是能摆脱真实世界以光速进化的环境。 

 黄冠:对,所以我们叫它是可以Scale(英)的强化学习,这是它作为模拟器的第二点价值。第三点就是更本质了,叫做世界行动模型,可以替代VLA,L为什么会对action一定必须呢?我们过去做自动驾驶也没有语言,所以VLA依赖这个L问题是很大的,要真正实现智能,就得迈向世界行动模型,所以我认为这三个点的价值都会非常大。

目前行业进展上,在上面三个方面,无论是我们的一些工作,还是全球的包括像Cosmos很多一些工作,世界模型都已经开始大规模的产生价值了。这是我对世界模型和具身智能关系的理解。 

张鹏:很有意思,因为世界模型的出现就是因为在具身领域里面数据这个事比较头疼,但是既然说世界模型是模型,只要是模型,都存在数据问题,所以世界模型的数据这个事就有点死循环,你怎么看这个事? 

黄冠:这两个问题都问得非常好,我还是思考一下,我可能这样回答。我跟大家介绍一下,第一个是各个模型的关系,我们讲三个模型,语言模型、世界模型、行动模型。语言模型输出的是语言,世界模型输出的是对未来世界的预测,未来的世界可以用video去表示,可以用3D去表示,当然也可以把physics表示进去。第三个行动模型输出的是action。所以这是三个非常不同的模型。

第二个,为什么语言模型跟世界模型其实可能相比行动模型会好解决呢?就是因为数据多,大家都知道,语言模型有互联网上的海量文字数据作为支撑。而世界模型所依赖的数据中,互联网的视频数据是最重要和基础的部分,这些视频数据看似没有直接呈现三维(3D)和physics,但实际上3D和physics都隐含在视频的隐空间里了。大家看互联网上的视频,比如一个水杯被扔出去,这其中就蕴含了非常丰富的物理规律。所以视频数据其实是一个非常好的构建世界基础模型(world foundation model)的素材来源,虽然它并不完备,但是一个非常好的基础。而我们最不缺的就是互联网上记录的海量的视频数据。所以,语言模型和世界模型能够更高效地利用丰富的语言和视频数据,进而作为行动模型的基础。

第三点,我最近也思考很多,为什么智驾和具身可能不太一样,在智驾里面,大家之前没有所谓的VLA,没有世界模型,但也干得还不错。包括中午体验的地平线的一段式端到端,真的非常丝滑,为什么?因为智驾有大量数据,只要数据足够多,可以不依赖语言模型和世界模型,只需要场景的端到端驾驶数据就好。当然,最后加上VLA和世界模型,会让系统的推理能力更强,迭代更高效。但是具身模型你会发现,如果从头做一个VA的端到端模型,是基本不可能的,核心是因为具身领域太缺数据了,这会导致驾驶模型和具身模型非常不一样的发展路径。 

张鹏:这个问题我再往下延伸一下,问问李教授,大语言模型其实给了我们所谓的scaling law这样的思维,不管今天大家说这个AGI这条路上scaling law有没有撞墙,但反正有大部分人还没有放弃,还在无限往上堆算力,还在各种的造数据对吧?在具身领域里边大概率可能也要scaling something,对吧?听起来今天我们的数据不够,也是因为我们其实想用这个scaling law想套进去,但是数据还是有一些问题。所以我刚才提到了世界模型等相关内容。但从您的角度来去看,就是这种在最深领域的scaling law和scaling what会跟大语言模型所遵循的规模法则,未来有什么不一样的点?又会有什么新的可能性?这个我其实挺感兴趣的,因为我觉得不会完全一样。 

李弘扬:这个我尝试回答一下这个问题,这个问题还是问得非常前沿的,首先有个结论,具身智能领域一定会有scaling law,到目前为止真正能算得上,做过scaling law实验的,这个世界上只有一家公司,就是Generalist AI,前一阵的Gen-0。其余包括Physical intelligence(Pi),都没有很大规模的用scaling law的实验,都还谈不上scaling law。所以你问的下一个问题,如果真有规模法则(scaling law),它会和大语言模型的规模法则呈现怎样的情况呢?

其实大概率还是沿着一种幂律分布的,或者说是线性的,无论是指数级还是线性的增长的趋势,这里面我想说一下,因为Gen-0这个工作一周积累30个小时,300万条数据(有效的轨迹),我们大概也换算了一条,如果两班倒的话,采集这个不同的manipulation task,一班8个小时,16个小时,其实有效的转化率是4、5个小时,因为还要涉及到数据质检、熟悉的过程等。这样的话需要Aloha或者说主从臂这样的一套设备需要500套,很显然它不可能部署500套,所以肯定要走UMI等等这种低成本的路线。在具身领域大家都在谈论数据金字塔、真机数据等概念,我觉得从算法、数据、硬件以及法律这几个维度来看,如何构建一套高效的数据采集系统,在具身智能领域是非常关键,然后我们再来说scaling law这个事。 

  张鹏:现在要Scaling,获取合适的原料是重要的问题,我们只能用Scaling Law的驱动有效解决前面的原料问题,这反而是产业今天关注的重点,要不然具身智能这个智能水平没法快速往上涨,这是很现实的,得到教授的亲自认证,看来这是关键的问题。

这时候转到黄冠这了,你看我们过去AI1.0的时候,ImageNet的出现对CV有重大的帮助,在具身智能里面,所谓的ImageNet时刻优化到什么样,会面临一个ImageNet的时刻,让这个技术线快速的成长?这里面可能也会有一些真数据收集等,从你的角度怎么去看?会有ImageNet的时候吗? 

黄冠:我觉得很可能不会有ImageNet时刻,因为图像分类任务很标准化,给一张图片给了一个标签就行;但是具身机器人,所有的传感器、执行器、环境、物体都不一样,本体也不一样,具身不是打造一个数据集的问题。所以我认为具身领域可能不会存在ImageNet的时刻,而是会直接到chatgpt时刻。

并且我们其实觉得没那么遥远,最近硅谷密集的出来一波公司,已经积累了10万小时以上的真机数据。所以可能明年很关键,明年全球可能会有5-10家公司,会把数据的量至少做到百万小时的级别(当然这里面大家数据来源的分布可能会不一样),可能会有公司接近GPT-3时刻。所以其实我们对ChatGPT时刻也不用那么悲观,就像凯哥开场的时候讲的,可能具身三五年时间就进入家庭场景了。 

张鹏:你觉得他又保守了? 

 黄冠:我们其实更乐观,因为这个行业很卷,只要大家意识到可以做,只要资源投入到位,就没有那么大瓶颈,无论是数据获取、模型架构,还是具身本体研发,只需要时间,需要投入。明年可能会接近GPT-3的时刻,两三年之内有机会到ChatGPT时刻。 

张鹏:这个问题李教授也帮我们部署一下,你怎么看?我觉得真机数据当然很好,但是问题要有真机数据,要有足够多的机器,足够多的场景跑起来。所以你的乐观程度怎么样?

李弘扬:我没有那么乐观,跟黄总差不多,所以还是要遵循这个数据金字塔或者说pyramid的这种形式。互联网数据,即ego- centric data,加上simulation,加上遥操等等这些,互为补充吧。 

张鹏:网络数据互联网数据就一个data,然后再加上simulation,再加上遥操等等这些互为补充。所以这件事儿还是要把所有可用的数据都要用起来,合在一起。今天其实不管怎么说,至少在这个时刻我们还不能说,具身这个领域从数据也好,还是从它的本身,我们希望它的智能的能力也好,已经到了一个让我们所有人都觉得ready的这样一个状态。但我们面临一个现实的问题,我看今天大量的公司也在考虑C端的事,甚至凯哥以未来家庭机器人未必不可以,我发现两年前他还没有跟我说这句话,现在大家反而比较乐观。那我问问张笛,往C端走,今天你的机器人还没有到那么通用的能力,怎么才能实现走进千家万户?还有哪些关键节点?即便现在还没到通用,就像ChatGPT还不能叫AGI,但是确实实现了千家万户,如果到具身机器人领域,真的怎么从C端走进千家万户,有足够的量? 

张笛:刚才大家提到两个观点,一个是学院派,一个是产业派,一个是一口吃成个胖子,把通用实现,另外一个是循序渐进做通用。我们自己的观察,现在走进千家万户的具身机器人已经非常多了,甚至是在几百万到上千万以上这个数量级。

我们可以举一些例子,什么叫循序渐进的走向通用。当某一天我们在家里面看到自己的扫地机器人除了扫地以外,突然之间有了安防巡检的功能的时候,它就向通用迈出一步。当它有了安防巡检之后,又有一定的家居物品要维护的时候,它又向前走了一小步,但有一天总会有一个时刻,大家会忽然惊讶的发现,原来我家里的小机器人能干的事情竟然越来越多,竟然变成这个样子,竟然解决的问题已经不再是我当时一开始觉得它的这个样子了,这是一个产品系列,这是它在怎么样去逐渐走向通用的过程。

而且同时,我们家用的小型清洁机器人厂商,一开始瞄准的是室内的场景,后续就会逐渐的希望我的机器人从室内走出去,可以从室内走上电梯里,可以走向自己家的草坪,可以走向街区。对于企业而言,要实现产品这样循序渐进地走向通用化,究竟该如何推进呢?这两个力量都可以让一个行业从一开始对一个功能性的产品,从一个简单的功能性的产品的期待,到逐步转变为对能带来更优质体验产品的期待。这样的循序渐进过程我觉得已经正在发生,而且如火如荼,甚至正在加速发生。 

张鹏:听起来你的思路是,哪怕就是一个服务或者一种用户价值的兑现,就像扫地机器人专注于把地面清洁做好,仅这一项功能,在家庭用户市场就能达到上千万台的年销量,在此基础上,你逐渐增加它的任务能力,当然它的服务形态也可能发生变化。所以,对于面向家庭用户的产品而言,发展的路径是一条条地履行服务承诺、有效实现用户需求,而不是像Iphone一样,一出现大家全都买了。 

张笛:也不完全是这样,一定是量变带来质变,在逐渐的履约的过程,现在的量变还不能引起质变,还没到那个关键节点,没到那个turning point,就像传统的功能机时代,先有BP机,再有大哥大,最后能发短信,有彩铃,同时有PDA,最后有一个大屏做整体的汇总,同时又能上网,又能听音乐。 

张鹏:所以最后还得是Iphone时刻。 

张笛:对,现在我们处在前夜的状态。 

张鹏:终于可以问王丛了,王丛你们作为一个技术团队,大家在相关领域做创新,有什么crazy idea,你们能看到哪些能干、哪些不能干,能不能跟我们分享一下,今天机器人越炒越热,都说进入家庭,怎么进,今天是什么状况,你看到的帮我们解谜一下。 

王丛:如果我们现在说具身能做很多东西的肯定是在家庭用户场景,但问题是都做不出来。张笛哥说的我很认同,真的做消费电子的这帮人都很务实,都一定是价格成本对应PMF(市场匹配度)的价值,一定是找到它的一个很匹配的点,这个东西才有可能在C端跑出来。C端跑出来的东西绝对不是一个价格偏高,PMF(市场匹配度)没有的东西,所以C端消费电子产品的功能一定是一点点积累的,其实Iphone也是功能积累起来的。

Iphone如果大家看乔布斯的发布会,其实就是通讯、MP3加上一个电话,三个已有功能整合到了一个产品上,然后慢慢构建起一个生态系统,从而有了所谓的智能手机。但是其实在Iphone之前的诺基亚也有不同的软件,也叫智能机,其实我觉得消费电子一定还是回归到最本身的产品需求,一点点叠功能发展出来,所以包括我们国内很多客户,就像扫地机最初只是负责平面的清洁,这件事情它的价格空间就已经被定死了,因为它就是地面的清洁,就算把扫地机器人扫到90分、95分、100分,它的价格永远是那样,除非它变成一个空间清洁,但即便如此价格空间也有限,因为请个阿姨也就40、50块钱一小时,家庭清洁就三个小时家里都打扫一遍,其实它的价格也定死了,一定要找到那个关键增长点才能爆发。 

张鹏:追问一点,就像你说的清洁这个事,因为有现实世界的服务在那了,那情绪价值这个事情,你认为清洁机器人真的会解决事情,而不是解决物理的状态?你看好吗? 

王丛:情绪机器人这个事情我是很看好,但是它并不是严格意义上的价值,因为每个人,男人、女人、小孩、老人,每个人定义陪伴、定义情绪的概念太非标了,所以你很难定义出来一个所谓的陪伴机器人。陪伴什么?我觉得这不是一个以场景定义产品的思路,真正好的产品定义,应该是当我想到某一个特定场景时,就能立刻联想到对应的产品;同时,当我看到某个产品时,也能马上明确它要解决的是哪个具体场景的问题。所以大家看很多产品不能推广,或者做的idea很好,但是卖不出去,虽然我觉得情绪机器人是个好东西,但是它一定要对应到不同细分的场景当中,大家才能进一步去谈这个问题。 

 张鹏:因为扫地这个事定义场景就好,不用定义用户,但是一到情绪价值了,它既要有场景,又要有用户,就变成两个不确定的模式,那算起来就麻烦了。这也是一个挑战。

我再追问一下,这也是我们整个下午的论坛可以感受到,其实具身智能机器人这个领域,大家都在讲全栈自研,但我觉得你们今天选择了一个生态开放这样的逻辑。未来这个里面有钱的巨头都全栈自研了,那你们为什么选择后面进来的兄弟们,你们要成为给他们搭台的人?这个战略选择是怎么做出来的? 

王丛:我觉得这个选择既有感性的一面,也有理性的一面。先说说感性的:任何一家公司做事情,创始人、CEO 都会有对未来的画面感 —— 地瓜机器人的画面感是什么?或者说,什么事能让我们这帮人发自内心地开心?不是我们自己做出一个多智能、多厉害的机器人,而是看到各行各业的消费电子、智能硬件,都能通过我们的技术赋能实现智能化,这才是我幻想中的画面,也是能让我们真正开心的事 —— 这是感性层面的原因。

我觉得机器人行业就算发展十年,也依然会是非标市场 —— 各行各业的机器人本体形态,大概率都会不一样。哪怕几年以后人形机器人变得非常泛化、智能,我也无法理解 “用几十万的人形机器人来扫地” 这件事 —— 大家看的科幻电影里,未来是各种各样的机器人各司其职,我觉得现实的未来也会是这样。机器人这件事情就是它很非标,它的场景很碎,它并不是一个寡头垄断的市场,那我觉得这个时代是需要有一家公司去把底层的一些东西给做好,才能真的加速这个时代的到来。虽然说这是我们的立场,但我觉得未来机器人公司有很多自研的,有很多会选择拥抱像地瓜这样的供应商,有很多公司会自研,这个太正常了。历史这么多年,每个行业都会有这样的分化:全栈自研的公司,比如苹果,是非常伟大的公司;拥抱生态开放的公司,比如英伟达,也是非常伟大的公司。所以世界是多元的,两种路线都对,只是我们感性上的追求,让我们选择了生态开放这一端。 

张鹏:对,我觉得没有对错,都是选择。但是毫无疑问,如果只有一种,反而可能是不对的,这倒是一个挺好的逻辑,如果只有一种,那你做另一种,大概率是正确的,世界从来不会那么单一,这个视角很给人启发。

我再问问李老师,你们一个百万级的数据开源了,刚才我们一直说数据,数据很珍贵,那开源这件事背后的意图是什么?或者说你觉得未来在具身智能领域里面的开源,有机会怎么推动这个行业的技术框架往下发展?这方面你可能有些思考。 

李弘扬:感谢,首先要严谨说明,“全球首个” 是智元的宣传表述,学术上还是要谨慎,毕竟说 “the very first” 很容易被人攻击。其实最开始 2023 年我就和姚卯青合计这个事,2024 年的时候智元还处在比较早期的阶段,但他能有这样的雄心壮志 —— 在上海张江有2000平的数采场,而不是在大学实验室的简单的 pick-and-place,这一点才是最打动我的。后来才有了现在这样的体量,包括我前两天去那个数采厂,都已经需要访客门禁了,能看出来规模确实起来了。

这个百万真机数据集,至少现在回过头来看,可以用于预训练、世界模型的训练,能给那些没有海量数据的高校实验室提供一个很好的平台。但其实我们最近也在复盘,这样的模式能不能复制?毕竟像agibot world这样的数据集,买过来成本也不低,还需要一套完整的生态,上到云服务的支撑等等,都得配套。所以在这之后,开源开放的数据集其实挑战还是蛮多的,可能最后还是需要一个行业和众力共建的平台来牵引,搭建一个统一的真机测试场,而不是单纯靠一家的数据集独大,这样的生态会更合适一些。 

张鹏:毫无疑问,在数据这件事上,汇成一个大河流,我觉得它可能对产业的发展有意义。但是它需要有合理的地形完成这件事,所以这个事我们其实挺期待,因为今天学术领域在这种迅速形成超级共识的赛道里面反而挺难受的,最多的钱都不给你们,是不是存在这样的问题?所以我觉得这种东西还是很期待更多的产业合作出现。可能我把最后一 part 的问题往前推一推,因为我们说了情绪价值,也说了陪伴,王丛说了一点我很认同,陪伴这个是很宽泛的,怎么陪伴,我还是问一下张笛,真的把这些东西放在家里,陪伴,情绪价值,还是存在一些细分赛道,哪怕王丛说我们要加给用户,但是真的来说可能也能对齐,不知道从你的角度怎么看?你的机器人带着灵动劲就很讨喜,所以你这方面身边朋友做这个的挺多,你怎么看?怎么从陪伴机器人找到细分的赛道,真的完成几十万台、上百万台的销售,你会看好吗? 

 张笛:其实我觉得我的综合判断跟王丛哥讲得比较类似,情绪价值这个事情怎么定义产品,其实是非常非常需要去仔细斟酌的一个方向,纯粹的情绪需求把它翻译成商业需求的语言,肯定是能够去做的。不管你是孤独也好,甚至孤独也可以分成若干种,解决不同的孤独,可能会有不同的产品形式可以去做,这个时候你发现情绪需求并不依赖于一个全能的机器人,只要针对那样专门的情绪需求定向去设计产品,这是我觉得最合理,也是最容易去取得一些市场进展的方式和方法。

这几年我们在观察整个市场,包括我们也服务了非常多的客户,这个过程当中我们也看到,确实还是有一些情绪需求,可以靠这些能移动的机器人,或者不能移动的对话终端,来去解决,进而形成一个比较稳定的市场,也能形成一个未来有机会逐渐走向通用的这样的minimal available product(英),这些市场包括我们现在能看到方兴未艾的一些小型的、甚至不能移动的对话终端 —— 如果我们把具身智能列一个九宫格,横轴看是否与物理世界产生接触,纵轴是它到底要不要使用非常非常 fancy 的机器人算法,那这类对话终端其实就属于 “不接触物理世界、仅依赖 NLP 算法” 的类别,它确实也已经在具身这个赛道下面,扎扎实实定义出了一个minimal availbable product,这是一个方向。

另外,在能运动的机器人品类里面,我们也发现现在非常多小型的桌搭产品,开始逐渐叠加越来越多的新功能和新范式,而且这些桌搭产品里,情绪价值往往高过实用功能。那这样的桌搭产品,甚至是纯玩具类型的产品里面,其实也有机会跑出商业化路径。既然已经它是有MVP的这样的一个minimal available的这样的一个小市场了,那其实依然有机会在通用化的道路上越走越远。

张鹏:所以具身这个概念大家不要都把它想成最高精尖,不是所有东西都是为了技术突破,反而你要服务用户的时候,也许你并不需要实体形态,哪怕是个 “幽灵机器人”—— 没有实体,只交付情绪价值,那在九宫格里面就属于比较极端的一个定点,它是一个 ghost without shell 对吧?这个其实都是有可能的,反而我觉得要开放性思维去看这件事,最终还是服务用户的核心需求。我觉得收尾的工作还是问问石海林,最近你看小黄他们搞的人形机器人,大家忽然发现一点,这个人形越来越像人了,甚至太拟人了。

首先一点,这种东西确实带给人亲近感,但是这种离人越来越近,甚至从形态上无限贴近人类的设计,如果真的未来进入家庭的时候,等于家里出现一些 “非人但又很类人” 的东西 —— 优必选做人形机器人很多年了,我相信你们除了技术研发,也会思考一些社会学、伦理方面的东西。有没有思考过这个问题?当那么类人的东西出现在家庭场景里面普遍存在、长期出现,甚至它比一个人还能更关注另一个人,它会对这个社会带来什么改变?它有什么好的影响,又有什么让我们担心的问题,你们有没有想过?毕竟你们在这个领域深耕了这么久。

 石海林:其实在这个层面我们确实做过深入的思考,关于这个问题我们有一个比较适合的思考切入角度 —— 从技术发展的速度来看,面向情感价值、情感陪护这个方向的机器人也好,具身智能产品也好,技术迭代真的非常快。从硬件上来说,不管是续航能力、结构复杂度,还是散热效果、运行噪音,甚至是外观设计,这些其实都还有很大的进步空间,但整体的发展速度非常快。从我们行业内的观察、实践以及整个产业的推进节奏来看,这些技术的收敛速度会高过我们以前对它的预期。

相对硬件来说,软件这两年其实是走在前面的,甚至如果我们今天把 “情感陪伴” 收窄到仅仅是 “交互对话” 这个范围的话,它其实已经是一个成熟的技术了。所以这个东西怎么说呢?软件相对来说是一个更成熟的板块,当然我们今天说的交互,可能不仅仅是语言上的交互 —— 它给人提供情绪价值,可能是因为颜值足够讨喜;比如我今天回家很累了,我的机器人帮我打扫完房间、收拾好碗筷,这个过程本身也能给我提供情绪价值;再比如它能跟我顺畅互动、回应我的需求,同样能提供情绪价值。

我们回头看,面向情感陪伴的具身智能技术发展这么快,它势必会推动产品和功能的成熟化,也会推动整个市场化的成熟,这个趋势其实不太以人的意志为转移,它是一个技术驱动的必然结果。那我们今天来看,我本人属于那种技术狂热者,我会主动去买悟空机器人这种陪伴型产品。其实不只是我,陪伴型机器人的目标人群会从现在的技术狂热者,逐步渗透到普通大众接受者,这个过程同样不受人的意志为转移。

所以从今天的技术势头来看,我们更应该思考的是怎么拥抱它、去接受它,怎么样更好地使用它,而不是抗拒这个趋势。

张鹏:所以今天它未必一上来就被所有人群接受,可能接下来在某类细分产品上,突然之间就会打开一个很大的市场,进而让用户和机器人之间建立更深层的关联。所以我倒觉得这给咱们留下一个开放性的话题 —— 真到了那一步,当你面对一个更广泛的群体,比如孩子,今天的孩子如果抱上一个内置 ChatGPT 的智能音箱,他还会跟智能音箱说谢谢吗?我们之前看过一些相关的研究,今天的孩子如果发现智能音箱里有 ChatGPT 的能力,他会完全把它理解成一个 “人”,会对它产生依赖,我觉得这些情况未来都会出现。

这件事可能引发我们接下来更复杂的思考 —— 看起来是一些交互层面的设定、一些规则的制定,但本质上它可能会带来一系列全新的问题:当一些新的智能体进入到人类社会之后,不管是具身的还是不具身的,都会对现有的社会关系、伦理观念产生影响。所以这是一个开放性问题,而任何行业有开放性问题,都说明这个行业生机勃勃。

就像王丛总说的,世界是多元的,技术路线也应该是多元的。今天各位嘉宾从形态选择、技术瓶颈、数据生态、C端落地、情绪价值、伦理风险等多个角度,分享了各自的 “共识” 与 “非共识”,虽然没有形成统一答案,但恰恰展现了这个行业的蓬勃生命力。

特别感谢各位嘉宾带来的精彩分享,期待未来每年都能看到具身智能领域的新突破,也期待地瓜机器人这样的生态赋能者能给行业带来更多可能性。本场圆桌对话到此结束,谢谢大家!

发布于 2025-12-16 20:16
收藏
1
上一篇:深化交流丨中国汽车工业协会常务副会长兼秘书长付炳锋一行到访 下一篇:图达通牵手广汽, 预计交付40万台激光雷达