【论坛】以视觉为中心的世界模型-2025年中国工业与应用数学学会几何设计与计算大会

【论坛】以视觉为中心的世界模型

论坛简介

视频生成模型Sora被称为世界模拟器，但其生成的视频依然有很多不符合物理世界的规律，以视觉生成为中心能否实现视觉世界模型，当前依赖视觉生成实现世界模型存在诸多挑战。本论坛主要邀请一线学者对视觉世界模型的几个核心问题进行研讨和交流，包括但不限于:视觉生成当前的发展趋势、视觉生成如何更加精准可控地反映真实世界、视觉生成和视觉世界模型的关系、视觉世界模型的设想、视觉世界模型能否成为具身的大脑、如何实现视觉世界模型等相关议题。

论坛时间地点

8月23日（星期六） 13:30-15:20

一楼漓云厅2

论坛召集人

袁粒

北京大学深圳研究生院

个人简介

北京大学深圳研究生院助理教授/博导、入选国家高层次青年人才计划、2023年福布斯亚洲30U30名单、国家优秀留学生奖(归国类)等，主持国家科技重大专项课题和国自然基金等。研究方向为以视觉为中心的多模态深度学习，以第一/通讯作者在国际顶级期刊和会议如Nature Computational Science，IEEE TPAMI/CVPR/ICLR等上发表论文40余篇，谷歌学术引用一万余次，单篇一作被引两千余次，代表性学术工作包括:T2T-ViT、VOLO等深度神经网络和Video-LLAVA 等多模态学习框架。

侯淇彬

南开大学

个人简介

南开大学副教授，博士生导师，天津市优博。主要研究方向为计算机视觉与深度学习，目前已在IEEETPAMI/NeurIPS/CVPR/ICCV等国际顶级人工智能领域期刊及会议上发表论文50余篇，GoogleScholar引用18000余次，单篇一作论文最高被引5000余次。研究成果应用于华为旗舰手机智能拍照系统中并获得了华为公司优秀合作成果奖。入选第七届中国科协青年人才托举计划，曾获教育部自然科学奖一等奖、吴文俊人工智能科学技术奖自然科学二等奖等奖项。

论坛讲者信息

王鑫涛

快手可灵

报告题目：视频生成的最新进展及其与世界模型的关系思考

报告摘要：自Sora以来，视频生成取得了飞速发展，比如可灵，Veo2，MovieGen等等。但是视频生成的效果，特别是运动合理性、物理合理性等方面仍面临巨大挑战，距离世界模型仍有较大差距。本报告讲介绍视频生成探索的一些最新进展，探讨其解决以上挑战的可能。本报告还将探讨视频生成模型与世界模型的关系，提供一些思考的角度。

个人简介：王鑫涛，快手可灵专家研究员，本科毕业于浙江大学，博士毕业于香港中文大学 MMLab，曾任腾讯 AROLab 和 AlLab专家研究员。主要研究视觉生成，包括图像、视频和 3D 的生成与可控。在国际顶级会议期刊发表多篇文章，包括T2l-Adapter，PhotoMaker，ESRGANGFPGAN等，论文 Google Scholar引用 20000余次，被评选为世界前2%顶尖科学家。

程明明

南开大学

报告题目：离散连续统一的视频VAE探索

报告摘要：本报告介绍一种新型视频变分自编码器(VideoVAE)框架，旨在实现离散与连续表征的统一建模，以提升视频数据处理的效能。通过引入渐进式学习策略，该模型能够将视频中的视觉与时间信息转化为紧凑的多模态令牌序列，支持更高效的特征表达和复用。实验结果表明，相比已有离散VAE方法，所提出的框架在视频重构质量、细节保持及计算效率方面均有显著提升，展现了其在视频分析与理解领域的巨大潜力。这一探索为未来研究提供了新的思路和技术手段。

个人简介：程明明，南开大学杰出教授，新一代人工智能发展战略研究院副院长。主持承担了国家杰出青年科学基金优秀青年科学基金项目等。他的主要研究方向是人工智能计算机视觉和计算机图形学，在SCI一区/CCF A类刊物上发表学术论文100余篇(含IEEE TPAMI论文40余篇)，h-index为100，论文谷歌引用6万余次，单篇最高引用5千余次，多次入选全球高被引科学家和中国高被引学者。获得教育部自然科学一等奖2项、其他省部级科技奖2项。

林倞

中山大学

报告题目：具身智能:从数字空间走向物理世界

报告摘要：智能体及具身智能是目前智能科学的前沿方向被认为是实现通用人工智能的必经之路。其中智能体相当于机器人的大脑(GPT-4 是智能体的一种简化形式)。具身智能是进一步将智能体装上了身体，赋予智能体物理形体感官及体验能力，使其具备通过与环境反复交互来持续学习及提升。本报告将介绍具身智能的发展趋势和动态，以及鹏城实验室基于国产化基础设施研发的具身智能若干关键技术和原型系统。

个人简介：林倞，鹏城实验室具身智能研究所所长，中山大学二级教授，国家杰出青年基金获得者，IEEE/IAPR Fellow。长期从事多模态人工智能、具身学习等领域的应用基础研究，承担国家 2030 科技创新重大项目。获中国图象图形学会科学技术一等奖、吴文俊人工智能自然科学奖，省级自然科学一等奖;指导博士生获得CCF 优秀博士论文奖、ACMChina 优秀博士论文奖及 CAAI优秀博士论文奖。

王一凯

北京师范大学

报告题目：视频模型驱动下的高质量三维场景生成

报告摘要：该报告拟介绍基于视频模型的三维场景生成方法，旨在解决大规模三维场景生成中常见的问题，如计算效率低、细节丢失以及生成效果难以控制。通过整合三维空间中的多种信息(包括同构和异构多模态数据以及时间维度信息)，生成大规模且高精度的三维场景，精准呈现复杂的几何结构、纹理细节和动态变化。

个人简介：王一凯，前生数科技研究科学家，现任北京师范大学人工智能学院副教授。研究方向包括深度多模态融合感知、多模态生成、具身智能等科研领域，学术论文于TPAMI、NeurIPS、ICLR、CVPR等国际期刊和会议发表录用30余篇。荣获国自然青年基金、博士后基金、华为学术基金项目资助，入选中国人工智能学会博士学位论文激励计划。

论坛召集人联系方式

姓名：陈晓奕
单位：北京大学深圳研究生院
邮箱：chenxiaoyi@pku.edu.cn