衡宇 发自 深圳
量子位 | 公众号 QbitAI
“机会不只来自技术本身。”
带领IDEA研究院(粤港澳大湾区数字经济研究院)走过第五个年头的沈向洋,新鲜分享了他用来梳理智能演进的五个维度——
算法范式
智能载体
交互范式
计算架构
数据
从算法范式维度出发,AI算法已经从构筑表达与生成能力的监督学习阶段,演进到引入因果与执行的强化学习阶段。
后面,将继续朝迈向高层认知的自主学习阶段探索。
从智能载体维度出发,当下的关注点已从语言和多模态模型,转向世界模型与具身模型。
这个变化反映出智能载体正从抽象符号空间迈向物理空间。
在人机交互维度上,沈向洋强调交互创新的重要性。
过去70年,人机交互经历了命令行、图形界面、搜索、推荐到自然交互的多次范式迁移,每一次迁移背后都对应着底层技术浪潮的变化。
“今天的产品开发者必须看懂智能特性带来的交互机会。”他同时提到,自然交互内部也在分层:
被动响应——交互式执行——具备提议能力的主动模式,交互方式从文本扩展到语音、手势乃至未来的脑机接口。
而计算架构维度已经出现从通用走向专用、从单一走向多元的趋势。GPU刺激了深度学习的第一波爆发,但能耗与成本也不断攀升。
于是,性能、成本与能效成了大家追逐的新的平衡点,推理、端侧、强化学习等匹配不同应用任务的专用芯片纷纷涌现。
最后关于数据——在模拟世界阶段,数据是静态教材;在探索世界阶段,数据是动态反馈;在归纳世界阶段,数据是验证假设的证据。
从人类数据枯竭到合成数据兴起,再到AI主动探索并获取实验数据,这背后体现出数据从限制模型能力的约束,逐步转变为推动AI主动学习的工具。
综上,不难得出沈向洋的insight:
机会并不仅仅来自技术本身,也来自理解技术如何改变载体、交互、计算与数据的方式,如何重新分布能力、资源与价值。
此外,沈向洋特别提到对未来个体和未来公司的思考。
当个体的能力被AI放大,许多原本需要多环节协作的任务,可以由单个个体端到端完成。
组织的重心,在某些领域中,会从管控变成定义问题、融合个体之间的协作。
他打趣地说道:
还发布了啥?一揽子创新项目我想未来的CEO应该怎么定义呢?
可能不是Chief Executive Officer,而是 Chief Entertaining Officer(首席氛围官)。
此次大会上,IDEA研究院还宣布了国际先进技术应用推进中心(深圳)与深港高等研究交流中心 (SHARE)两个创新平台,以及一系列创新项目。
量子位选取了与具身、AI-Native编程语言等项目与大家分享——
从视觉切入,发布“万物可抓取”DINO-X Grasp模型
2025 IDEA大会上,IDEA研究院高级研究员张磊,首次系统介绍了研究院在具身智能方向的最新成果:
DINO-X Grasp。
过去两年,具身智能异军突起,不少团队试图通过VLA (视觉-语言-动作)大模型架构,让机器人像人一样“听得懂人话,看得懂世界,动得起来”。
但这条路线背后的问题很快浮现出来:泛化能力不足。
与其从动作建模着手,不如先把“看清楚”这个问题解决得更彻底——这成为了IDEA研究院发力的突破口。
依托IDEA团队过去在开集目标检测和视觉感知的研究积淀,以强泛化的视觉检测模型DINO-X为基础,IDEA研究院发起了DINO-X Grasp项目。
更重要的是,它不挑设备也不挑场景。
在普通4090显卡上,DINO-X Grasp可以实现 10帧/秒的实时推理速度。
可兼容主流的英特尔深度相机与X-ARM机械臂,不依赖昂贵工业设备。
具备开箱即用的适配能力, 支持在移动端或端侧设备运行。
现场展示的视频中,DINO-X Grasp驱动的机器人灵活应对各种形状各异的物品,从食品包装袋到异形障碍物,一抓一个准。
此外,DINO-X Grasp已经与美团机器人研究院开展了合作。
张宏波团队MoonBit:中国人写的编程语言有了10万用户
写过Re语言的张宏波,现在又带领团队在IDEA研究院开发MoonBit。
沈向洋特别提到,张宏波是他知道的唯一一个写的编程语言全世界有以万为计量单位的人数在用的人。
他所带领的MoonBit团队2022年底才成立,刚好赶上了ChatGPT横空出世。张宏波在台上分享时说:“作为新的编程语言,(赶上这个时间点),可以让我们有机会重新思考在AI时代下怎么做开发者工具。”
MoonBit专门为AI时代设计。
它是所有编程语言史上第一个原生提供AI助手的语言,还为语言模型打造了基于语义分析的IDE。
更重要的是,MoonBit的性能表现出色。在数字计算等基准测试中,性能超越Java近10倍;WebAssembly后端代码体积比Rust小30%,是Type和Go的50%。
过去一年半,MoonBit从一门支持多后端的编程语言,逐步演进为完整的全栈工具链(包含专为AI设计的原生工具集),最终构建起集开发者工具链与智能体开发生态于一体的开发者平台。
张宏波透露,MoonBit已经有了商业付费客户,包括北美的云厂商用它来进行服务器开发。”大部分编程语言在前四年、前五年都是默默无闻的,而我们在这么早的阶段就累积了这么多用户。”
目前,MoonBit的用户从去年的2.6万到现在超过了10万。张宏波 预计到2026年底会有接近100万用户,“成为首个从中国走出去的有世界影响力的开源平台”。
提前预告一下:
下个月,用MoonBit编程语言开发的、支持使用多种编程语言的智能体平台MoonBit agent SDK将正式开源。
GPU渲染器Smart:五年磨一剑,打破国外垄断
王嘉平团队的 GPU渲染器Smart是更为直观的IDEA研究院新近成果。
“在电影工业中,一个镜头通常包含几百个G的数据。”王嘉平在演示时介绍,电影工业的渲染和游戏完全不同。游戏要求毫秒级响应,而电影渲染一帧画面可能需要几小时甚至一天。
目前全球电影渲染市场被三家公司垄断: