• 【论坛】面向端到端自动驾驶的仿真与生成

    论坛简介

    本论坛将聚焦自动驾驶技术的前沿研究,重点探讨端到端自动驾驶系统、世界模型、场景重建与生成、多模态学习及大模型的应用。随着人工智能、深度学习和计算机视觉的快速发展,自动驾驶正朝着更智能和高效的方向迈进。论坛将讨论如何利用世界模型增强系统对复杂环境的理解与预测,如何通过场景重建与生成技术应对未知或稀有场景,以及如何通过多模态学习融合视觉、激光雷达等多种传感器数据提升感知精度,还将探讨大模型如何与多模态数据结合,提升自动驾驶系统在复杂场景中的决策与适应能力。

    论坛召集人

    马月昕

    马月昕

    上海科技大学

    个人简介

    马月昕,上海科技大学研究员、助理教授、博导,博士毕业于香港大学。主要研究方向为三维视觉、具身智能、自动驾驶。共发表相关领域顶会与顶刊论文80余篇,其中一作与通讯论文40余篇,包括Science Robotics、TPAMI、CVPR、ICCV、ECCV、SIGGRAPH、AAAI等,谷歌学术引用4000余次。参与指导的论文获MICCAI 2024唯一最佳论文奖。曾获上海市海外高层次人才,上海市优秀教学成果(高等教育类)一等奖。个人主页:: http://yuexinma.me/。

    论坛讲者信息

    王兴刚

    王兴刚

    华中科技大学

    报告题目:基于多模态大模型和扩散模型的端到端自动驾驶

    报告摘要:端到端自动驾驶将彻底的改变人类的交通出行,是一个重要的具身智能问题。本次报告将围绕如何基于多模态多模态和扩散模型来构建端到端自动驾驶系统,介绍对应的Senna和DiffusionDrive方法。Senna设计了分层的规划策略,利用自然语言生成高层决策,再由端到端模型生成精确轨迹。DiffusionDrive引入了扩散模型到自动驾驶中,提出了截断扩散策略,通过多锚点的高斯分布和高效的扩散解码器,实现了实时的高质量多模态轨迹生成。此外,报告还将介绍团队将多模态大模型推理和自动驾驶结合的相关工作。

    个人简介:王兴刚,华中科技大学电信学院教授博导,国家“万人计划”青年拔尖人才,现任Image and Vision Computing期刊(Elsevier, IF 4.2)共同主编。主要从事基础模型、视觉表征学习、目标检测分割跟踪等领域研究、在IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议发表学术论文80余篇,谷歌学术引用3万余次,其中一作/通讯1000+引用论文6篇。

    张力

    张力

    复旦大学

    报告题目:基于生成式物理智能的自动驾驶闭环仿真研究

    报告摘要:任意轨迹的街景合成使得端到端驾驶策略的闭环评估成为可能。尽管现有方法在录制轨迹上的新视角合成表现出色,但由于记录的驾驶视频通常以有限的视角采集无边界的广阔驾驶环境,这些基于重建的方法在处理新轨迹时仍面临挑战。为了解决这一问题,本报告介绍一种新颖的任意轨迹驾驶视图合成方法,通过利用视频生成先验来优化自由轨迹下的三维模型。并以此为基础构建一个全新自动驾驶仿真引擎,其具备:多模态的(摄像头和激光雷达)逼真场景渲染;支持闭环评估,以适应自由形式的轨迹行为;提供高度多样化的交通场景,以进行全面的评估;支持多智能体协作,以考虑交互动态;并具备高计算效率,以确保经济性和可扩展性。基于这一仿真环境,模拟了三种驾驶类别:非交互性驾驶、安全测试以及多智能体交互模拟,以提供一个可靠且全面的基准,用于评估驾驶代理在现实世界中的表现。

    个人简介:张力,复旦大学大数据学院教授,博士毕业于伦敦玛丽女王大学电子工程与计算机科学系,曾任职于牛津大学工程科学系博士后,剑桥三星人工智能中心研究科学家。获得国家级高层次青年人才计划、 上海海外高层次人才计划、上海科技青年 35 人引领计划(35U35)、世界人工智能大会青年优秀论文奖; 发表 IEEE TPAMI、IJCV、NeurIPS 等人工智能国际期刊与会议论文 70 余篇,论文总被引两万余次。 担任人工智能国际会议 NeurIPS 2023、NeurIPS 2024、NeurIPS 2025、CVPR 2023、CVPR 2024 与 CVPR 2025 领域主席,期刊 Pattern Recognition 副编辑。

    侯跃南

    侯跃南

    上海人工智能实验室

    报告题目:大模型时代下自动驾驶领域的研究与探索

    报告摘要:大模型已经在自然语言处理和计算机视觉等众多领域取得了惊艳的效果,如GPT-4、ChatGPT、LLaMA、PaLM、Flamingo、SAM、FastSAM等。本次演讲则是围绕在大模型的背景下自动驾驶领域的技术研究和探索。我们将从自动驾驶领域的关键问题出发,从数据采集和处理、模型的多任务统一框架设计、模型预训练、下游任务适配和迁移等多个方面较为详细地阐述大模型在自动驾驶领域应用过程中需要解决哪些关键问题并提出一些基本的处理思路。希望通过这次演讲能让大家对于自动驾驶领域有一个初步的了解,也期待能和大家进行深入的交流和讨论。

    个人简介:侯跃南是上海人工智能实验室的研究员,博士毕业于香港中文大学MMLab,师从吕健勤教授和汤晓鸥教授,主要的研究方向包括自动驾驶、具身智能、高效学习等。已在计算机视觉顶会顶刊如TPAMI、CVPR、ICCV、ECCV、NeurIPS、AAAI等发表30余篇论文,有10余项授权国家发明专利,谷歌学术引用为2900余次,h-index为22,6篇一作/通讯论文单篇过百引用,论文成果被用于商汤车端3D物体检测、车道线检测等量产产品中。曾获得2021年上海市海外高层次人才计划、上海市特聘专家、IEEE SMC高引用论文(3/650)、中科院深圳先进技术研究院访问学者等荣誉,参与了多个上海市科委项目。

    祝新革

    祝新革

    华为

    报告题目:端到端自动驾驶:从产业实践到学术前沿

    报告摘要:端到端自动驾驶作为新一代自动驾驶的技术范式,已然成为自动驾驶产业界与学术界共同聚焦的核心方向,正深刻重塑自动驾驶系统的技术路径与演进逻辑。然而,产业界对工程化落地的务实诉求与学术界对理论突破的探索导向,导致二者在技术认知框架、评价体系和发展路径上仍存在显著分野。本报告将结合产业实践与学术前沿双重视角,系统性梳理端到端自动驾驶的技术演进脉络,对比分析产学研领域的方法论差异,并展望未来的发展方向。

    个人简介:祝新革,博士毕业于香港中文大学。主要研究方向是三维视觉,自动驾驶,软硬协同的高效计算等,共发表相关领域论文顶会顶刊论文60余篇,曾获ICCV 3DOI workshop best paper,学术引用6000余次,多次入选世界前2% Top科学家称号。担任华为智能驾驶副首席专家、天才少年,领导的研究项目落地华为多款车型,包括问界,享界,智界系列等,实车部署超50万辆。

    论坛召集人联系方式

    姓名:马月昕
    单位:上海科技大学
    邮箱:mayuexin@shanghaitech.edu.cn