中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、AI视频生成和具身智能，30+位重磅嘉宾抢先看！_学习资源

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、AI视频生成和具身智能，30+位重磅嘉宾抢先看！

创始人

2024-11-22 16:18:10

12月5-6日，2024中国生成式AI大会（上海站）「GenAICon 2024」将在上海中星铂尔曼大酒店盛大举办。中国生成式AI大会已成功举办两届，迅速成长为国内生成式AI领域最具影响力的产业峰会之一。

此次也是中国生成式AI大会首次登陆上海举办，由智一科技旗下智能产业第一媒体 智东西、AI与硬科技知识分享社区 智猩猩共同发起。本次大会的指导单位是 上海市人工智能行业协会。

大会上海站将设置 “主会场峰会+分会场研讨会+展览区”。主会场将进行大模型峰会、AI Infra峰会，分会场将组织端侧生成式AI、AI视频生成和具身智能三场技术研讨会。主会场与分会场外则设有展览区。

上海站以“智能跃进创造无限”为主题，将邀请50+位嘉宾带来致辞、演讲、报告和对话讨论，以前瞻性视角为大家解构和把脉生成式AI的技术产品创新、商业落地解法、未来趋势走向与前沿研究焦点。

已经迫不及待报名的朋友，可以先扫描下方二维码添加小助手报名啦！

目前，已有30+位嘉宾确认参与主题演讲、高端对话和圆桌Panel。接下来为大家一一介绍大会的部分嘉宾。

01、大模型峰会部分嘉宾

银河通用机器人合伙人、大模型负责人张直政

张直政，银河通用机器人合伙人，大模型负责人。曾任微软亚洲研究院主管研究员，主导多个copilot相关的基础模型和多模态大模型项目的研发，有丰富的AI模型、系统的研究、产品化和管理经验。中科大、哥伦比亚大学CSC联合培养博士生。获中国电子教育学会优博、安徽省优博、中科大优博、安徽省优秀毕业生等多个奖项。近三年在全球计算机视觉、具身智能、人工智能顶级会议和期刊上发表论文30余篇。

北京大学（临港）大模型对齐中心执行主任、北京阿莱门科技有限公司首席执行官徐骅

徐骅博士，现任北京大学（临港）大模型对齐中心执行主任，北京阿莱门科技有限公司首席执行官。他是哈佛大学、多伦多大学和中欧国际工商学院的校友，拥有计算机、金融学和管理学学位。多年来，徐博士致力于人工智能技术在法律和医疗领域的创新应用，特别是在大模型开发与风险管理方面积累了丰富的经验，取得了卓越的成就。

腾讯优图实验室天衍研究中心负责人、专家研究员吴贤

吴贤，腾讯优图实验室天衍研究中心负责人，专家研究员，上海交通大学计算机博士。吴贤博士的主要研究兴趣包括自然语言理解，深度机器学习，医学大模型等。吴贤博士在Nature子刊，T-PAMI, NeurIPS, ACL, CVPR等国际顶级杂志会议上发表文章一百余篇，被引用超过5000次，有近50项美国和中国专利。吴贤博士获得过华夏医学科技一等奖，在国际MSCOCO评测中获得过第一名，也在ICDM知识图谱评测中获得了第二名的成绩。在加入腾讯之前，吴贤博士先后供职于IBM研究院和微软人工智能和研究部门。

演讲主题：《从深度学习到大模型，医学AI上的一些尝试》

内容概要：

在医学领域，几乎所有的通用 NLP 任务都可以找到相应的实际应用场景，例如医患对话、医学信息提取、疾病诊断、药物推荐以及报告生成等。目前，已有大量的研究将 LLM应用于医学领域，部分大型模型甚至已经高分通过了医师资格考试。然而，仍有许多问题需要进一步研究。本次分享旨在深度探索大模型技术在医学领域的研究和应用问题，包括训练效率问题，包括幻觉问题，包含在临床场景中实际遇到的问题等。

联汇科技CEO兼首席科学家赵天成

赵天成为联汇科技CEO兼首席科学家，浙江大学滨江研究院特聘研究员、博士生导师。赵天成本科毕业于加州大学洛杉矶分校（UCLA）电子工程学士学位。以全院第一的优秀成绩荣获2014级工程学院杰出毕业生奖，也是当年全校唯一获此荣誉的中国籍学生。随后赵天成博士就读于卡耐基梅隆大学（CMU），取得计算机博士学位，导师为Maxine Eskenazi教授（CMU人机交互中心（DialRC)主任和创始人，全球第一个实用人机交互系统Lets Go的创造者，全球第一个多模态、多领域人机交互平台DialPort的创建者），以及William W Cohen教授和Louis-Philippe Morency教授（William W Cohen教授于2017年时提出了向量知识库理论，目前为谷歌首席科学家；Louis-Philippe Morency教授于2018年提出多模态AI）。

赵天成博士曾多次担任国际顶尖会议和期刊的审稿人和区域主席，在国际顶级会议和期刊上发表论文40余篇，获得最佳论文奖2次，Google Scholar 引用次数超过2200次，高引论文引用次数2022年全球排名32。2016年同导师发表的《Towards end-to-end learning for dialog state tracking and management using deep reinforcement learning》是最早利用深度学习打通自然语言模态与数据库模态的工作之一，当年获得最佳论文奖。2018年开始接触视觉语言预训练大模型方面的研究，提出了包括多模态视觉对话系统、大规模稀疏向量视觉语言匹配算法等一系列成果，2018年获得微软研究院颁发的杰出博士荣誉(Best & Brighest PhD)。

演讲主题：《以多模态智能体为中心的AI原生应用和开源生态》

内容概要：

智能体作为应用前沿，正在重塑技术与场景之间的互动方式。

本次演讲以智能体的开发与应用为核心，重点介绍Om Agent平台在AI原生应用中的实践，包括如何快速构建、部署和管理AI原生应用，让每个智能硬件设备具备人类认知级别的智能体，快速适应、赋能各种场景，以及在不同行业与领域的原生应用案例。同时，强调构建开源生态也是推动智能体应用创新的重要依托，更多开发者的加入与应用的产生将能够服务更广泛的用户，让每个人都能真正地享受到技术创新成果。

VAST CTO 梁鼎

梁鼎，VAST CTO，清华大学本硕，师从戴琼海院士，创新领军工程博士在读，师从周杰教授。曾任商汤通用模型负责人，垂类语言大模型负责人。带领数百人团队，负责人工智能算法研发，支撑公司核心业务，创造了多个行业第一。论文50余篇，引用过万，专利100余项。

演讲主题：《大模型加持，3D AIGC的发展与应用》

西湖心辰CEO、西湖大学深度学习实验室成果转化负责人醒辰

2008年加入阿里巴巴集团，参与了APEC会议、网商大会等重要会议的策划与执行工作。2011年，她加入淘宝大学，致力于提升淘宝头部商家的企业管理及经营能力。2014年，作为创始团队成员之一，共同筹建湖畔大学，负责学员招募、企业家课程体系的筹划以及学员和企业家的运营管理等工作，拥有15年深入研究企业家管理思想及企业发展实战案例的经验，主要的研究方向和成果主要集中在：

1. 基于中国本土实践的管理思想整理。

2. 长期追踪企业增长效率与社会责任平衡的可持续创新案例。

3. 通过行动研究与团体介入，研发并实践企业整体转型的方法论。

演讲主题：《让AI懂人心，说人话——多模态情感大模型的应用探索》

内容概要：

语言、文字的发明都是为了沟通和交流，在AI技术高速发展的今天，人机交流的种种矛盾也被放到台前。“AI不明白我的意思”，“AI理解不了我的心情”大众对此很有共鸣，也是一定程度上排斥AI的原因。AI的智商虽然关键，情商更为重要，它是AI与人类和谐共存的基石。

怎么让AI模型懂人心？说人话？西湖心辰自创立以来一直深耕打造“高情商”“超拟人”的AI模型，并且持续探索其应用边界，以期为公众带来福祉并创造社会价值。

趣丸科技副总裁贾朔

贾朔，趣丸科技副总裁，伦敦艺术大学硕士。贾朔带领团队孵化的唱鸭APP首次普及了无弦“弹唱”玩法，降低了“玩音乐”门槛，获得华为最佳应用、小米年度应用。入选文旅部“文化和旅游数字化创新实践十佳案例”。2024年，贾朔带领团队自研的全球首个多模态音乐生成大模型——天谱乐AI，荣获中国人工智能学会主办的第三届琶洲算法大赛全球总冠军。

演讲主题：《让每个人体验音乐创作——音乐生成大模型的创新实践》

内容概要：

随着AIGC技术的成熟和广泛应用，AI和音乐可以碰撞怎样的火花？如何降低门槛让普通用户体验音乐创作的乐趣？趣丸科技推出了自主研发的全球首个多模态音乐生成大模型——天谱乐AI。该模型集成音频处理、深度学习及大数据分析等领先技术，不仅支持文生音乐、音频生音乐，还首创图片/视频生音乐功能，生成的歌曲自带人声唱词，效果达到专业发行水准。

本次演讲聚焦AI音乐，重点分享趣丸科技自研的音乐生成大模型天谱乐AI的初衷、产品研发、应用实践和愿景。AI音乐工具不仅是技术的堆砌，更是用户情感的载体。天谱乐AI通过技术创新降低音乐创作门槛，让用户不再受限于专业的乐理知识，复杂的音乐制作流程和昂贵的版权费用，就可以轻松通过音乐创作记录生活的切片，在创作中提升审美自觉和音乐生产能力。

BV百度风投执行董事温永腾

温永腾先生现负责BV百度风投人工智能应用赛道，关注生成式AI技术及应用的投资机会。他从事科技领域投资多年，曾主导投资了西湖心辰、生数科技、诗云科技、云舶科技、数字力场、粒界科技等科技公司。

温永腾先生拥有复旦大学理学学士。在加入BV百度风投前，他曾是以太资本早期团队成员、科技领域负责人，协助momenta、擎朗科技、彩云科技等科技企业完成融资；蔚来资本高级投资经理，负责出行、车联网及早期技术投资，深度参与嘀嗒出行、四维智联的投资与运营管理工作。被评选为36氪暗涌2024届Under36投资人。

蚂蚁集团资深算法专家李龙飞

李龙飞，蚂蚁集团资深算法专家，在蚂蚁工作十年，主要研究方向包括：逻辑学习，因果学习，自动学习，大模型等方向，在NeurIPS，ICML，KDD，SIGIR等会议上发表论文70余篇余篇，主导参与了蚂蚁内部的多个核心平台和项目，获得了ccf2020科技进步卓越奖，吴文俊2023科技进步一等奖等。

演讲主题：《生成式大模型在蚂蚁内部的应用和挑战》

演讲概要：

生成式语言大模型在近两年取得了突破性的进展，在蚂蚁内部也有大量的业务在应用llm来进行各种各样的业务改造和创新，并取得了一些结果，例如蚂蚁的支小宝，医疗管家等业务。在业务应用LLM的过程中也遇到了一些挑战，主要集中在可信，以及效率等方面，例如在模型的部署服务过程中，就面临资源利用率，推理速度等效率相关的问题，在用户的应用过程中也遇到一些和大模型幻觉相关的挑战，本次分享会介绍蚂蚁在这两个方面上的一些工作和尝试。

02、AI Infra峰会部分嘉宾

上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩

戴国浩，上海交通大学副教授，无问芯穹联合创始人兼首席科学家。承担包括国家自然科学基金青年项目在内的多个纵横向项目，个人负责经费超千万元。

戴国浩在电路设计自动化、异构计算、体系架构等领域发表高水平论文60余篇，谷歌学术引用千余次。担任Ph.D. Forum at DAC 2024 联席主席。获ASP-DAC 2019/ DATE 2024最佳论文奖、DATE 2023/ DAC 2022/ DATE 2018最佳论文提名、WAIC 2022优秀青年论文奖。获WAIC 2022云帆奖、NeurIPS21 BIGANN 竞赛全球冠军。

GMI Cloud 亚太区总裁 King.Cui

King.Cui，GMI Cloud 亚太区总裁，14+年云计算经验，历经产品研发、解决方案、销售管理。前阿里云资深总监，带领团队完成年销售额数百亿RMB；中国云计算早期开拓者，前百度云创始团队成员。不仅拥有丰富且敏锐的商业洞察力和丰富的行业解决方案经验，还拥有深刻的云计算技术理解力和发展趋势判断力。

演讲主题：《全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性？》

内容概要：

随着全球数字化进程的推进，越来越多的企业希望将自己的 AI 应用拓展到海外市场。然而，AI 出海面临诸多挑战，本次演讲重点关注如何突破算力挑战。

稳定的 GPU 集群对突破算力挑战至关重要。GPU 集群能并行处理海量数据，其稳定性确保计算持续高效。通过合理架构设计、优质硬件支持、智能监控和维护系统等，可保障集群稳定，释放强大算力。GMI Cloud作为一个基于高稳定性 GPU 集群的云计算平台，便为 AI 应用出海提供一系列服务和支持。

本次演讲，将介绍AI出海常见的基础设施问题以及高稳定性的重要性，并着重探讨如何利用 GMI Cloud 的优势，帮助企业突破算力挑战。之后，还将通过成功案例，分享 GMI Cloud 在不同行业应用的实践经验。

枫清科技创始人兼CEO 高雪峰

高雪峰，枫清科技 Fabarta 创始人兼 CEO，拥有近二十年大数据与人工智能领域工程与市场经验，曾担任阿里云大数据& AI 技术产品总经理、IBM 认知计算解决方案研究院院长，负责 IBM Watson 等世界领先 AI 技术在中国的落地。曾带领团队打造出多款具有国际影响力的大数据和 AI 相关产品，服务全球上万家企业级客户，助力企业实现数智化转型。

曾任阿里云副总裁，计算平台产品与解决方案总经理；阿里巴巴大数据& AI 产品解决方案总架构师；阿里巴巴大数据生态联盟&生态投资负责人；负责阿里云大数据& AI 体系的规划和产品技术演进，负责阿里云大数据体系的全球市场拓展沉淀，负责大数据&AI 领域的产品技术生态发展，带领团队为52000+公有云客户和600+专有云客户提供先进可靠的大数据& AI 产品服务和解决方案；成功通过对产品能力和方向的改造将阿里云大数据和 AI 的产品带入了业务高速增长的轨道，实现了 BU 20 亿营收的突破（100%+增速）；在大数据和人工智能领域，以及 To B 的行业积累上有非常丰富的技术与商业的经验。

英飞流创始人兼CEO 张颖峰

张颖峰，英飞流 InfiniFlow 联合创始人，连续创业者，先后负责多年搜索引擎，数据库内核，云基础架构和大数据架构，以及人工智能核心算法研发，包括广告推荐引擎，计算机视觉和自然语言处理。先后主导并参与多家大型企业数字化转型，支撑日活千万，日均两亿动态搜索请求的互联网电商业务。自InfiniFlow创业一年以来，已孵化了2个开源AI项目，一个是开源半年多就获得2万多github星标的RAG引擎RAGFlow，一个是专用于RAG场景的AI原生数据库Infinity，后者服务前者，共同解决LLM落地的普遍痛点。

演讲主题：《新一代企业级多模态RAG引擎》

内容概要：

Jina AI联合创始人兼首席技术官王楠

王楠博士，Jina AI的联合创始人兼首席技术官，博士毕业于德国波鸿大学计算神经科学专业。之后曾在欧洲知名电商Zalando和腾讯公司担任高级算法工程师，负责搜索和推荐业务，并在这些领域积累了丰富的模型设计、实现和部署经验。

自2020年起创立Jina AI，作为联合创始人兼CTO，王楠博士领导团队开发及开源了神经搜索框架jina。作为Linux Foundation AI&Data基金的TAC成员，他推动DocArray从Linux Foundation AI&DATA毕业。王楠博士组织开发和开源了多个文本和多模态向量模型，全球累计下载量超过1000万。王楠博士热衷于AI技术在搜索领域的实际应用，并且积极推动AI技术的开源发展，他在AI技术领域的杰出贡献使他荣获2023年中国开源先锋33人的称号。

演讲主题：《从长窗口到多向量：RAG范式下AI Infra的机遇和挑战》

内容概要：

在本次演讲中，我们将深入探讨RAG（Retrieval-Augmented Generation）范式在大模型的实际应用中遇到的机遇和挑战。RAG不仅能够补足大模型记忆的不准确性，还有效降低了注入新知识的成本，尤其是在私有知识的访问方面表现出色。尽管长窗口大模型技术取得了长足进步，但其并不会取代RAG范式，反而推动了RAG依赖于支持长窗口输入的向量模型的需求。我们将讨论jina-embeddings作为全球首款支持8k窗口的开源向量模型的成功，以及长窗口输入逐渐成为多模态向量模型的新标配。尽管如此，长窗口模型带来了信息丢失和推理成本上升的挑战，这也催生了多向量表示的需求，以弥补单一向量带来的信息缺失。例如，ColBERT和ColPali分别针对文本和图文内容提供了多向量表示方案，然而支持多向量的AI基础设施仍然不足。此外，RAG的PoC阶段面临着GPU推理成本高、资源利用率低的问题，市场缺乏类似Modal lab的GPU共享服务。通过本次演讲，我们将总结RAG范式的长期发展前景，阐明向量模型在长窗口和多模态输入上的进化需求，并探讨AI基础设施如何更好地支持多向量表示和GPU共享，以降低RAG的应用成本。

中昊芯英芯片软件栈负责人朱国梁

朱国梁，中昊芯英（杭州）科技有限公司芯片软件栈负责人，国防科技大学博士，主要研究方向为分布式系统、操作系统、编译器。曾参与国家重大项目天河系列超级计算机研制工作、神威太湖系列超级计算机研制工作、一款国产芯片操作系统以及编译器研制工作。加入中昊芯英后，组建芯片软件研发团队实现芯片底层软件全栈，实现主流大语言模型的推理和训练。

演讲主题：《国产 TPU 芯片“No CUDA”软件栈的构建实践》

内容概要：

国产自研高性能芯片面临的诸多挑战中，性能和生态是两个不能避免的话题。英伟达的 CUDA 生态帮助了很多类 CUDA 架构公司解决了可用性和部分性能问题，但也带来了诸多自主可控上的担忧。

本次演讲将从实际的芯片软件栈构建思路出发，结合实际 AI 芯片软硬件架构，介绍在真实的大模型落地实践中，多层次软件栈实现所面临的问题、挑战、以及过程中的选型决策。

北电数智智算云负责人郭文

郭文，北电数智智算云负责人，主要负责芯片适配和智算云平台的开发工作；硬件开发、软件开发、算法开发、芯片研发和集群研发等专业领域深度研究人员，曾带领团队设计并研发了两款AI芯片，并将其集成至大模型训练和推理系统中，及开发支持多种国产芯片进行高效的推理、训练及混合训练的分布式大模型训练推理框架；历任三星、飞思卡尔等国际化公司的研发管理工作，也曾在歌尔、商汤等公司成立并带领研发团队实践攻关完成前沿领域的重大研发项目。

声网生成式AI产品负责人毛玉杰

毛玉杰，从事 WebRTC 技术领域工作超过10年，2011年毕业于华东师范大学，同年任职于英特尔，参与Android，Chromium以及WebRTC在x86平台上的开发与性能优化工作，2014年成为WebRTC 开源社区Committer，2015年加入声网，担任声网WebRTC技术负责人，主导并负责WebRTC在各类Web平台上的架构设计与研发，2024年，担任声网生成式AI产品负责人，主导并负责RTE x AI产品方向的发展与落地

阿里云智算集群产品解决方案负责人丛培岩

Alluxio首席架构师傅正佳

傅正佳，Alluxio首席架构师。本科毕业于上海交通大学电子系，随后取得香港中文大学信息工程博士学位，毕业后加入新加坡高级数字科学中心（美国伊利诺伊大学在新加坡的研究所）从事科研工作，在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前，傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。

演讲主题：《构建大模型时代的高性能AI数据底座》

内容概要：

随着AI技术的发展，尤其是大模型技术的应用，数据量呈现爆炸性增长。AI训练和推理需要处理的数据集规模从几TB增长到PB级别，与此同时，数据往往来自多个数据源，很多数据存放在不同的云服务中。当AI算力集群从这些数据源获取数据时，很容易遭遇带宽低下、延迟较高的困境，使算力资源的宝贵时间白白浪费在等待数据这一环节上。Alluxio 通过帮助企业构建大模型时代的高性能AI数据底座以应对I/O挑战，提升AI算力的效率与性能，被广泛应用于模型训练与推理、自动驾驶、AI制药、金融量化以及视频渲染等场景。

本次演讲，首先会介绍常见的 I/O 挑战及其对 GPU 利用率和整体性能的影响，并着重讲解如何将高性能数据访问层无缝集成到 AI 流水线中，以减少 I/O 开销。最后，将结合实际案例分享提高 AI 工作负载性能的缓存策略。

03、端侧生成式AI技术研讨会

部分嘉宾

RockAI CTO、联合创始人杨华

杨华，RockAI CTO、联合创始人，毕业于上海交通大学，在自然语言和多模态大模型领域拥有深厚的技术积累与应用实践，先后曾担任百度核心算法工程师、复星·杏脉算法VP。目前致力于多模态实时人机交互与自我进化式机器学习体系的研发。

联想集团首席研究员、联想研究院人工智能实验室研发总监师忠超

师忠超，博士，联想集团首席研究员，联想研究院人工智能实验室研发总监，正高级工程师，中关村高聚工程创新领军人才，目前担任科技部专家，工信部专家，北京邮电大学，天津大学企业导师，中国计算机学会智能交通分会常务委员，计算机视觉专委会委员。已申请专利240余件，在CVPR，AAAI, ACMMM等国际会议上发表论文30余篇。负责人工智能平台和大模型研发，主持开发系统入选中国人工智能Top100案例名单，获评最佳AI产品和技术奖，并获北京市科学技术奖二等奖，CCF科学技术奖科技进步奖等。基于大模型技术在业界发布第一个AIPC产品，助力公司AIPC业界领先。

西湖大学工学院助理教授王欢

王欢，浙江大学学士、硕士，美国东北大学博士。2024年6月加入西湖大学工学院任助理教授，创立高效智能计算实验室（Efficient Neural Computing and Design Lab, ENCODE Lab），担任独立PI、博导。研究领域为高效人工智能、神经渲染、计算机视觉；专注于高效人工智能相关的理论、算法、应用研究，致力于让前沿AI算法落地；偶尔关注人工智能与哲学、社会学交叉领域。曾在Google / Snap / MERL / Alibaba等业界研究机构实习。发表顶会顶刊论文30余篇。在西湖大学教授《计算机和程序设计基础》本科生通识课程。

爱芯元智智慧IoT事业部产品总监吴炜

吴炜，爱芯元智智慧IoT事业部产品总监，爱芯元智智能视觉领域的资深专家，同时也是公司视觉智能技术的主要规划和推广者之一。拥有十多年的产品规划经验和十年的硬件设计经验。在大型模型及AI-ISP对终端产品的应用和量产方面积累了深厚的专业知识与实践经验，致力推动智能视觉技术的发展和应用落地。

演讲主题：《多模态大模型在端侧的创新实践与挑战》

内容概要：

本次演讲，将通过展示实际应用案例，探讨多模态大模型如何在更广泛的应用场景中发挥更大的价值。同时，还将与行业伙伴共同探索大模型在端侧应用的无限可能，推动“普惠AI，造就美好生活”的使命。

04、AI视频生成技术研讨会

部分嘉宾

中存算董事长陈巍

陈巍博士，大模型+AI芯片专家，高级职称，中存算等企业董事长。国际计算机学会（ACM）、中国计算机学会（CCF）专业会员，多个国际人工智能期刊审稿人。主要研究方向为大模型架构、稀疏量化压缩与部署加速，存算一体与3D Chiplet处理器，相关技术成果已被广泛应用于知名IDC和互联网企业。

曾任领域知名人工智能（自然语言处理）企业首席科学家，中国科学院副主任（2012），多个国家科技重大专项课题负责人。中国与美国发明专利软件著作权约70+项（约50+项发明专利已授权）。著有《Sora大模型技术精要—原理、关键技术、模型架构与未来趋势》《GPT-4大模型硬核解读》《ChatGPT大模型技术精要—发展历程、原理、技术架构详解和产业未来》《智能网联汽车：激光与视觉SLAM详解》等。

演讲主题：《视频大模型架构对比及长序列模型加速》

内容概要：

随着大模型技术的快速发展，视频大模型（VLM）正与短视频产业结合并迎来新的爆发机遇，逐渐成为互联网应用的热点。

本次分享从视频大模型与世界模型的角度，对比主流视频生成大模型架构，探讨视频生成的关键技术（包括NaViT、RADM等），分析视频生成类大模型的主要挑战与发展趋势；探讨内存墙（Memory Wall）和通信墙对视频大模型GPGPU/TPU集群训练和部署的挑战，并针对这类视频长序列模型的算力芯片级训练部署，结合具体项目给出软硬结合的解决方案与系统经验。

上海交通大学人工智能研究院助理教授晏轶超

晏轶超，上海交通大学人工智能研究院助理教授，博士生导师。获上海交通大学电子工程系学士、博士学位，法国里昂中央理工学院硕士学位，曾担任阿联酋起源人工智能研究院研究科学家。主要研究方向为AIGC及三维数字人技术，发表包括TPAMI、CVPR、NeurIPS在内的论文40余篇。先后主持国家自然科学基金青年项目、CCF-阿里巴巴青年科学家基金等项目8项。曾入选上海市海外高层次人才计划，获2020年度中国图象图形学学会优秀博士论文奖。

新壹科技AI算法主任架构师李璋

李璋，拥有中国科学院软件工程硕士学位，是生成式人工智能领域的资深技术专家。在深度学习、算法优化以及大模型研发方面具有深厚的理论基础和丰富的实战经验。在新壹（北京）科技有限公司担任AI算法主任架构师，主导设计并研发了多个具有行业标志性的AI项目。设计与研发了“新壹视频大模型”——国内首个专注于视频生成的生成式AI大模型。该模型在视频内容生成、理解与优化方面取得了突破性成果，为推动国内生成式AI技术在视频领域的实际应用提供了强有力的支撑。

演讲主题：《视频垂直大模型在智能数字人生成中的应用》

内容概要：

在生成式AI技术蓬勃发展的背景下，智能数字人已成为内容创作、虚拟助手和人机交互等领域的重要应用之一。然而，传统生成模型在高精度、多模态的智能数字人生成中仍面临诸多挑战。为此，垂直领域的大模型提供了一条全新路径。

本次演讲，首先会介绍从通用大模型到垂直大模型的演进，之后将着重讲解新壹视频大模型的整体架构设计及其在数字人视频生成与优化中的核心技术突破；此外，还将对智能数字人生成的技术难点，包括数字人生成中实现自然语言驱动动作与表情生成的关键技术等进行深入分析，并分享视频垂直大模型驱动的智能数字人在相关领域的典型应用案例。

旷视研究院高级研究员李华东

李华东，旷视研究院高级研究员，硕士毕业于清华大学计算机系。研究方向为计算机视觉，主要包括视频生成与理解，深度估计等，已在ECCV，AAAI等人工智能顶级会议上发表多篇论文。

演讲主题：《可控人物视频生成》

内容概要：

短视频、影视和游戏动画创作正在迅速发展。然而，传统的视频制作过程耗时耗力，通常需要大量的人工后期编辑。视频生成大模型算法提供了一种低成本、高效的高质量视频内容生成解决方案。但视频生成算法生成的内容可控性不足，限制了其实际应用的有效性。因此，如何实现视频生成内容的可控性仍是一大关键挑战。

医学上海模型 Infra 中国吴贤博士研究全解大智能概要赵天成模态

上一篇：(必备收藏)!大宝连云港麻将外挂辅助脚本!(透视)详细教程(2022已更新)(哔哩哔哩)

下一篇：推荐十款“闲娱江西棋牌可以安装挂吗”!详细开挂教程-知乎

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、AI视频生成和具身智能，30+位重磅嘉宾抢先看！

相关内容

热门资讯