对话陈佳玉:从核聚变到机器人,是攀登AI珠峰的过程
创始人
2025-12-06 21:45:15

本科毕业于北大工学院,早期研究聚焦于自动驾驶;博士后期间在卡内基梅隆大学,利用强化学习解决核聚变反应堆控制问题。陈佳玉的科研生涯,始终围绕着复杂系统的智能控制展开。

2025 年,陈佳玉开启了全新的阶段:他同时担任博导与原力无限资深研究科学家,研究对象从核聚变转向了通用家用机器人。他试图结合学术界的理论深度与产业界的工程资源,寻找通往通用智能的路径。

在本次专访中,陈佳玉回应了关于“天才少年”标签、中美科研环境差异以及具身智能落地路径等话题。他认为,标签并不重要,重要的是能否精准地定义研究问题,并在有限的资源下找到最优解。

核聚变与机器人,在数学本质上是一样的

DeepTech:回望你的学术生涯,从自动驾驶到强化学习理论,再到核聚变控制,最后回归具身智能。每一次方向转变背后的逻辑是什么?

陈佳玉:我刚开始做科研是从技术角度出发的。起初做自动驾驶的感知,后来做决策,自然而然地接触到了强化学习。博士阶段,我希望能把这个方向做深,于是转向了偏理论和算法的设计,暂时与具体应用解绑。

到了博后阶段,我又想把算法重新落地到应用层面。无论是核聚变里的等离子体控制,还是具身智能里的机器人控制,本质上都是用强化学习去求解复杂的控制问题。一旦锁定了强化学习这个方向,我就一直在沿着它做。

DeepTech:为什么对强化学习这么情有独钟?

陈佳玉:强化学习起源于认知科学,后来经由 Richard Sutton 引入计算机科学。它的学习过程是非常类人的(Human-like)。如果说人工智能的终极目标是发展类人智能,我认为强化学习研究的问题比其他范式更本质。

同时,它也是一个非常综合的学科,涉及到控制理论、统计学、优化理论,对数理基础要求很高。这一点我也比较喜欢。

DeepTech:可以理解为你比较喜欢挑战难题、追求本质意义上的问题吗?

陈佳玉:关于挑战难题,这可能是我刚读博时的一个误区,认为最难的东西必定是最有用的东西。但我现在的 Philosophy 是不要单纯为了做难的问题而做难的问题。如果单纯为了挑战最难的问题而做研究,其实有点太自我了。我现在更倾向于从需求出发,从实用主义出发,用一个有用的技术,解决大家最想解决的问题,这才是做工程、做企业需要着力的点。

关于本质,我认为这也跟你想做的研究的最终目标有关系。我们最终要发展类人智能,所以我认为强化学习是一个有前景的方向,这是本质的。当然,做研究和做企业不同。做研究是追求用最简洁的方式解决最本质的问题。因为解决了本质问题,影响的点会很多,所以本质也是有用的一个方面。

DeepTech:你在 CMU 做核聚变控制是非常硬核的物理科学,现在做人形机器人拿水杯是日常生活场景。这两类问题在数学本质和决策逻辑上有什么异同?

陈佳玉:方法论是一样的。无论是基于真实交互数据,还是基于模拟器建模,从数学本质上讲,它们都可以建模成一个马尔可夫决策过程(MDP)。

拿到一个控制问题,你都需要定义三个项:观测是什么?动作是什么?如何评价动作的好坏?

核聚变过程和机器人拿水,都是高维、非线性的连续控制问题。传统控制方法很难解决,而强化学习的优势恰恰在于此。所以,它们底层的解题思路是通用的。

DeepTech:在这些阶段的经历中,对你影响比较大的人物是谁?

陈佳玉:最重要的人物是我的两位导师,Vanita Gawva 和Joshua Tendell。

我的博士导师 Vanita Gawva 习惯把所有问题映射到数学领域,用统计学或优化理论去解释。这让我学会从数学原理去思考算法的可行性,看透问题的本质。

我的博后导师 Joshua Rendell 则相反,他是一个在应用和工程上做得极好的人。从他身上我学到,解决工程问题最重要的是迭代,是根据需求不断调整。

我现在做研究,实际上是在尝试结合这两者:既要在理论上寻求突破,又要具备工程头脑,通过快速迭代去解决实际问题。

DeepTech:可否举一个具体场景,说明你如何结合两位导师身上学到的知识?

陈佳玉:我们正在计划做一些关于持续性强化学习的东西。持续性强化学习,是让人工智能具有持续学习新任务的能力,也就是让其在学习新任务的时候不忘掉旧任务,同时依托从旧任务中提取出的知识进行更好的学习。这是一个更类人的学习过程。

但它目前还只停留在理论阶段。要攻克这个问题,你既要在理论方面做出突破,同时在应用的时候又要应用很多工程上的技术。我们正在做的就是这样的事情,既在做持续性强化学习的算法,进行理论上的突破,同时又想尽快把它应用到机器人上。这个应用过程就会涉及很多工程上的迭代,这就是理论和工程的结合。

通用机器人是 AI 的珠穆朗玛峰

DeepTech:你现在一方面在港大做教职,一方面加入原力无限这家创业公司。为什么选择这种双栖模式?

陈佳玉:对于我来说,这两者是高度耦合的。我在公司也是做研究,方向和我在港大做的完全一致:通用家用机器人。

在香港做通用家用机器人研究面临三个独特的困境:第一是钱。买设备、买显卡、雇员工,这是千万级别的投入,光靠申请中期的 Funding 很难拿到;第二是地。在香港找一个 150 平米的实验室是非常非常难的事情。第三是算力。而在产业界,这些场地、人力、算力的支持都能得到解决。我们在原力无限成立了联合实验室,我负责的是原型机的研究,不涉及量产和推广。这本质上是研究能力和研究资源的互补。

DeepTech:为什么是原力无限?

陈佳玉:我觉得这是一个天时地利人和的选择。做具身智能研究,最大的痛点往往是缺乏真实的落地场景。原力无限最吸引我的,是它已经构建了一个从商业到技术的正向循环。FORCE 系列、MASTER COFFEE 系列以及轮式人形 AstroDroid AD-01 机器人在市场上的成功,证明了这家公司懂产品、懂商业,这为我们探索更前沿的通用智能提供了坚实的后盾。

此外,这个团队身上有一股Doer(实干家)的气质。在这里,不管是建设实验室还是攻克算法难题,决策链路非常短,执行效率非常高。这种纯粹的工程文化让我感到非常舒适。

更重要的是,我们达成了深度的技术共识。公司管理层对我给予了无保留的信任,我们都坚信:具身智能的未来在于一脑多身,在于通用的物理世界模型。 所以我们为了同一个愿景——定义下一代具身智能——成为并肩作战的创业合伙人。这些都让我觉得,这就是我要找的地方。

DeepTech:为什么一定要做家用机器人?

陈佳玉:机器人学更像是人工智能技术的一个实验场。如果你想做一个通用的机器人,几乎要集齐 AI 领域所有的技术:CV、NLP、大模型、强化学习、控制理论、人机交互等等。而具身智能被认为是人工智能领域的珠穆朗玛峰,特别是人形机器人。

从落地场景看,商业场景天花板不高,而工业场景更需要追求效率的专用机器;唯独家庭场景,大家不希望洗碗搞个机器、洗衣搞个机器,而是希望有一个通用机器人。所以,我们决定攀登这座高峰。

DeepTech:你觉得和一些拥有更强大算力和资金的大厂相比,初创公司的机会和挑战在哪里?

陈佳玉:必须要找到一个落地的场景,并且做得比较专精才好。你如果去拼基础模型或者研究,可能都不会是大厂的对手。得有一条自己独有的研究道路,足够快的落地,足够的实用主义才行。

DeepTech:你觉得这个场景会先发生在哪里?

陈佳玉:我觉得短期来看应该会是在 B 端。因为 B 端的成功更多依赖于政策,现在鼓励人形机器人进工厂。但我们认为长期来看,更大的机会在 C 端,特别是进家庭。

工厂可以做各种异构的专用机器人来提升效率,但通用机器人铺展的空间不大;在家庭场景下,大家肯定不想说洗碗的时候有洗碗机机器人,洗衣服的时候使用洗衣服机器人——大家更希望家庭里能有一个通用机器人,来解决多种任务。所以我们认为长期来看,机会在 C 端。

世界模型需要以 Agent 为中心

DeepTech:你目前最想攻克的科学问题是什么?

陈佳玉:主要有两个方向,一是刚刚提到的持续性强化学习,另一个是以 Agent 为中心的世界模型。

持续性强化学习是针对现在的 AI 学完一个任务就忘了旧知识的问题而言的。针对一个持续的任务,我们希望 AI 能够在即使不知道下一个任务是什么的情况下,也能主动调动已有知识库快速学习,并且不遗忘。这是一个非常难的问题。

世界模型就是在解决一个更本质的问题。现在具身智能无非就两套方案,一个是叫 VLA(Vision-Language-Action),一个叫世界模型。VLA 怎么做?比如你教一个机器人拿杯子,就需要手把手教它:把一个人拿杯子的序列映射到机器人动作空间。

而世界模型会教会它背后的原理。我们会告诉它:你不把这个杯子拿紧,这个杯子就会掉在地上,而掉在地上就会碎。有了这个因果模型,机器人就能明白动作背后的原因,从而更好地泛化,比如把拿杯子的经验迁移到拿水壶上。这个机器人就可以从中学到,我是因为不想让这个杯子掉到地上,所以我要把这个杯子拿紧。

至于以 Agent 为中心的世界模型呢,现在大家做的世界模型(比如 Sora)很多是第三人称视角的,学的是通用的物理知识。但我们认为,世界模型是用来指挥智能体行为的。每个人心中都有一个自己的世界模型。所以我们想做强调以 Agent 为中心的建模。这两个方向,一个是抽象,一个是因果的建模,这是我们做世界模型和别人做世界模型不一样的点。

DeepTech:机器人需要像大模型做数学题那样去推理吗?

陈佳玉:这可能和大家的直觉不一样。我认为在执行任务的时候,是没有那么多时间进行推理的。比如洗衣服、洗碗,这些动作在熟练之后,更多像是一种肌肉记忆。它和用大模型解数学题不一样。

推理能力可能在学习阶段非常有帮助,能加速学习过程。但一旦学好之后,真正的执行过程是不大需要推理的。

DeepTech:你认为当下具身智能领域,最被高估和最被忽视的技术分别是什么?

陈佳玉:最被高估的是泛化性。现在很多 Paper 里宣称的泛化,往往是偶然的泛化——从 A 场景换到 B 场景的过程中碰巧能用。但这缺乏理论保证,如何获取可保证的泛化性,大家讨论得不够。

而最被忽视的是持续学习。如何做到持续学习而不遗忘?这是 Richard Sutton 和 Ilya Sutskever 最近都在提的难题,但因为技术路线不明朗,业界的讨论还比较少。

数据飞轮转起来的那一刻

DeepTech:你对未来五到十年具身智能这个行业发展有什么判断?

陈佳玉:我不太能给出时间判断,这是一件非常难的事情。现在技术的发展越来越脱离原来的摩尔定律。以前你可以根据摩尔定律做时间上的判断,比如每两年算力会增长三倍,但现在算力起的作用越来越弱了,所以说现在对时间上的判断其实是很难的。

但是我觉得它大概的路线是这样的:

第一阶段,机器人能够在特定的场景下实现任务之间的泛化,这个过程我感觉应该很快就会到来,大概两到三年吧。

下一个阶段就是推广和部署的阶段。因为机器人已经能在一个场景下可靠地执行多个任务了,后面就会是降本的阶段,会大量的推广部署。大量推广部署之后,机器人就会日夜不停地产生数据,积攒海量的数据。由此,我们就可以利用算法上的一些突破,以及这些海量的跨场景的数据,说不定可以得到跨场景的通用机器人,也就是场景泛化。所以我觉得大致会走一个从任务泛化推广部署,再到场景泛化的路线。

DeepTech:目前具身智能也缺乏统一的benchmark 和数据集,你觉得这个问题如何解决?

陈佳玉:数据问题的话,我认为初期可以依靠数据工厂,也是靠人类去采集。慢慢的可以依赖一些机器,比如用机器在数据工厂里面进行自动化的采集。其次,我认为终究是需要有真实的客户数据比如说有 1,000 台机器人部署到 1,000 个家庭里,它们夜以继日地产生数据,这将会是非常强劲的数据洪流。用更好的数据选更好的策略,用更好的策略产生更好的数据,就会形成正反馈的闭环。

实际上我认为通用机器人能不能落地,最关键的时间点就是数据飞轮什么时候开始转起来。

DeepTech:你认为机器人达到什么标准,才算可以安心部署给用户?

陈佳玉:标准就是是否能在特定场景中,长时间、稳定、有效率地完成多种任务。现在的难点在于长时间稳定。如果能做到这一点,哪怕是在单一场景下,我认为就是下一个里程碑。

先定义问题,再寻找资源

DeepTech:我注意到你 2024 年博士毕业之后,2025 年就成为了博导和首席科学家,也被贴上“少年天才科学家”的标签,你怎么看待这个标签?

陈佳玉:我个人认为这都不重要,我认为最重要的是,我是否解决了重要的问题,做出了重要的工作。以及我做这个方向是当前一个比较热门的方向。更重要的,还是说你能做出什么重要的工作来,标签不重要的。

DeepTech:在这个标签之下,你能不能给我们分享一些面对困难的时刻?

陈佳玉:其实做研究、特别是一个人做研究,它的试错成本是非常高的。我读博士期间经常是一个项目成功、一个项目失败,就这样交替进行。因为本质上做研究就是探索不同的路的过程。你要边探索边思考哪条路更好,就像走迷宫一样把那条路试出来。

但一个比较重要的点是,所有失败过程中锻炼的那些技能在之后都会用上。所以我认为最重要的就是,首先这是一个值得做的工作,其次你要有足够新的想法,最后还要有足够的坚持。我觉得这样最后结果总不会差的,无论这个事做成还是做不成。

DeepTech:你提到了要有比较足够新的想法和坚持,你会觉得这两个点对你来说是比较难完成的事情吗?很多人会觉得坚持听上去简单,但实际上做起来很难。

陈佳玉:现在做研究,特别是做人工智能研究,你可以得到大量很简单的想法,然后把它做成一篇论文,这样你能够很快把论文数量 build up 起来。但很多论文往往都不会造成什么影响,可能反而是那种比较新、比较重要的问题,花的时间成本会很高,人力成本会很高,失败风险也会很大。

这种时候你就得做一些抉择了,也会很难,因为你要忍受更大的不确定性。但这种问题一旦解决,它的影响也会更大一些。

DeepTech:一边是发文效率高但简单的 Idea,另一边是更重要但困难的新问题,你自己怎么去衡量和选择?

陈佳玉:我认为做科研的核心在于目标感,你要明确自己的阶段性目标和长远目标是什么。

所有与目标无关的事情其实都不那么重要。真正与目标相关的,可能也就是那么两三份核心工作,这才是需要花大力气、投入 80% 精力去做的。至于剩下 20% 的精力,我会留给那些不太相关但比较有趣的工作。这主要是基于现实考量:我们确实需要文章的数量。

这里存在一个视角的差异:作为 PI,我需要的是重要的文章。但作为学生,他们首先需要能让他们毕业的文章,以及在科研初期就能做出来、用来练手的文章。这类文章可能影响力有限,但对学生的学术生涯起步非常重要。

因此,我不能只看重那些影响很大的工作,而忽视那些相对简单的工作。两者都要兼顾,只要控制好比例即可。

DeepTech:作为年轻的博导,如果给想进入这个领域的学生或研究者一个建议,你会说什么?

陈佳玉:第一,先定义自己的研究问题。确保它足够重要,然后再进行深度研究。不要盲从,不要还没想清楚就动手;第二,找资源。在具身智能领域,资源(算力、设备、场景)不到位,你很难进行很好的研究。一定要尽量给自己找更多的资源支持。

如果年轻研究者在早期找不到真正的方向,或者无法判断哪些问题足够重要,我的建议是:多去研究领域内那些标杆性人物的思考方式。

这些顶尖学者通常都有自己的一套完整的研究体系,这是基于他们漫长的学术生涯沉淀下来的。去拆解和学习这些体系,是建立认知最直接的方式。

但要注意,学习不是盲从。你不能照搬某一个人,而是要多看、多想,博采众长。你需要结合自己的思考,先构建出自己的研究体系,然后再从这个体系中去推导和定义你的研究问题。通常来说,这是一个从体系到问题的过程。

相关内容

热门资讯

辅助科技实测“科乐斗地主辅助软... 您好,科乐斗地主这款游戏可以开挂的,确实是有挂的,需要了解加微【9752949】很多玩家在这款游戏中...
[今日要闻]“微乐锄大贰辅助开... 微乐锄大贰怎么下挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我...
[最新攻略]“白金岛游戏怎么开... 有 亲,根据资深记者爆料白金岛游戏是可以开挂的,确实有挂(咨询软件无需打...
今日重大发现“钱塘十三水究竟有... 今日重大发现“钱塘十三水究竟有挂吗?”[透视曝光猫腻]亲.钱塘十三水这款游戏是可以开挂的,确实是有挂...
今日重磅消息“六瓣数字消到底是... 您好:六瓣数字消这款游戏可以开挂,确实是有挂的,需要了解加客服微信【9752949】很多玩家在这款游...