10月29日,企创云课堂《世界模型智能体:感知-决策-行动闭环》专题直播课顺利举行。本次课程特邀清华大学计算机科学与技术系教授、清华大学人工智能研究院视觉智能研究中心主任邓志东担任主讲嘉宾,系统解析了世界模型智能体的基本架构、技术路径与产业应用前景。
智能演进:从数字交互到物理行动
邓志东教授系统梳理了人工智能从单模态大语言模型到多模态基础模型,再到具身智能体与世界模型智能体的完整技术演进路径。他指出,在世界模型智能体的推动下,人工智能正实现从“数字世界”到“物理世界”的关键跨越,完成从“对话生成”到“感知行动”的能力跃升。
核心架构:多重闭环实现精准控制
课程重点剖析了世界模型智能体的基本架构。邓志东教授详细讲解了“感知-决策-行动”闭环的三大核心环节:感知段完成环境感知、理解与预测,决策段实现分层推理与运动规划,行动段精准生成行为与动作。这一多频多重闭环设计,使智能体具备了从宏观决策到微观控制的全栈能力。
端到端突破:技术范式根本性变革
邓志东教授强调,从“分段式”到“一段式”是世界模型智能体发展的重大突破。他以特斯拉FSD V12为例,展示了端到端模型通过纯视觉感知与潜空间推理,将代码从30万行精简至2000行,实现了驾驶行为的闭环学习,这标志着自动驾驶研发范式的根本性变革。
VLA跃迁:智能体能力全面提升
课程特别阐释了从视觉语言模型到视觉语言动作模型的能力跃迁。VLA通过增加物理动作模型和感知到动作的决策推理,实现了对真实物理世界的直接赋能,成为推动AI从数字空间走向物理空间的关键技术。
产业落地:双轮驱动实体经济转型
在产业应用方面,邓志东教授分析了世界模型智能体在自动驾驶和人形机器人领域的实践进展。他结合特斯拉FSD自行交付等案例指出,我国在人形机器人产业链方面已形成显著优势,下一步需要在VLA等核心技术上实现突破。
发展机遇:加速智能技术产业化
邓志东教授总结表示,世界模型智能体虽然处于发展早期,但已展现出推动产业变革的巨大潜力。加强基础大模型创新、深化端到端技术路径、构建虚实融合的学习环境,将有效促进世界模型智能体的技术突破与产业落地。
企创云课堂由中国科协、全国工商联主办,中国科协组织人事部、中国科协企业创新服务中心、全国工商联宣传教育部及经济部、工信部中小企业发展促进中心、中关村产业技术联盟联合会承办。本次课程吸引了来自人工智能企业、科研机构、高校的1.2万余名观众参与。与会者普遍认为,课程内容既保持了学术前沿的深度,又兼具产业实践的广度,为理解下一代AI技术的发展方向提供了重要参考。