可控数据生成项目

利用先进的生成模型,实现多样化交通场景的视频生成与模拟

1. 项目简介

本项目致力于通过可控的数据生成技术,生成多样化且时空一致的交通场景视频。利用大规模语言模型(LLM)和先进的扩散模型(Diffusion Models),实现基于文本提示的高质量交通模拟系统,支持多视图视频生成,以满足自动驾驶、交通规划等多领域的需求。

2. 数据合成最近工作

2.1 DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

DriveDreamer-2 通过集成大型语言模型(LLM)增强的世界模型,能够生成多样化的驾驶视频。系统基于文本提示生成符合交通规则的高清地图(HDMap),并确保生成视频的时空一致性,为自动驾驶系统提供高质量的数据支持。

DriveDreamer-2
图1: DriveDreamer-2 系统架构图

2.2 DrivingDiffusion: Layout-Guided Multi-view Driving Scene Video Generation with Latent Diffusion Model

DrivingDiffusion 是一个时空一致的多视图视频生成框架,利用潜在扩散模型(Latent Diffusion Model)指导的布局生成,确保多视角下的视频内容一致且连贯。该框架通过多视图单帧生成、单视图视频生成以及后处理优化,显著提升了生成视频的质量与一致性。

DrivingDiffusion
图2: DrivingDiffusion 系统架构图

3. 输入与输出

3.1 输入

  • 场景描述 (S): S = {M, B, L, I}
  • M: w×h×c 的二进制鸟瞰图道路地图
  • B: N 个 3D 边界框及其类别 {(ci, bi)} N_i=1
  • L: 场景文本描述,如天气、时间、车道线、3D 框 GT 类别等
  • I: w×h×3 的参考图像
  • 相机参数 (P): P = [K, R, T]
生成管道
图3: 基于 ControlNet 和 Stable Diffusion 的生成管道

3.2 输出

  • 生成的多视图驾驶视频,支持不同天气和时间条件
  • 确保生成视频的时空一致性和交通规则遵循

4. 主要职责

4.1 系统目标

  • 通过文本提示生成多样化的交通场景
  • 提供 Drive 视频生成的交通条件
  • 确保生成视频的时空一致性

4.2 个人负责内容

  • 单帧生成模块:
    • 基于 MagicDrive,支持内部多视角(4 鱼眼、7V、11V)的数据生成与编辑。
    • 生成数据中包含 3D 边界框(3D BBox)和地图标签,确保数据的完整性和可用性。
    • 优化单帧生成任务的算法流程,提高生成效率和结果精度。
  • 视频生成模块:
    • 设计自回归模型,实现连续帧的高质量生成,确保时序一致性。
    • 集成 DDIM(Denoising Diffusion Implicit Models),优化推理速度并提升生成视频的图像质量。
    • 支持文本或离线 BEV 交通流作为条件输入,生成符合实际驾驶场景的视频。
    • 利用 OpenSora-STDiT 技术,显著提升视频的时间连贯性和图像质量。
    • 引入 ControlNet,对齐时序条件(condition)和时序 latent 特征,实现可控的多维度环视视频生成 (B, T, V, 3, H, W)。
    • 实现环视视频一次性生成,支持多视角(4 鱼眼、7V、11V)数据的自动化生成。

5. 架构设计

5.1 解决方案架构

  • 多视图单帧生成:
    • 通过相邻摄像机信息交换确保视图一致性
    • 引入参考帧提示提升图像和视频生成质量
  • 单视图视频生成:
    • 多相机共享机制
    • 基于首帧多视图信息指导后续帧生成
  • 后处理优化:
    • 增强后续帧的跨视图一致性
    • 通过DDIM算法改善前后帧生成一致性和质量
架构设计
图4: 解决方案架构设计

6. 模型效果评估与可视化

6.1 自回归版本效果

  • 支持 768×960 分辨率
  • 生成的 4 鱼眼图像效果:
图5: 白天常规场景
图6: 下雨场景
图7: 夜晚场景

6.2 非自回归版本的单帧效果

Fov120-1V(分辨率为 544×960):

Fov120-1V-0
图8: Fov120-1V-0
Fov120-1V-1
图9: Fov120-1V-1
Fov120-1V-2
图10: Fov120-1V-2
Fov120-1V-3
图11: Fov120-1V-3

6.3 多样性生成效果

同一场景的多样性生成:

同一场景 7V map1
图12: 同一场景 7V map1
同一场景 7V map2
图13: 同一场景 7V map2
同一场景 11V map1
图14: 同一场景 11V map1
同一场景 11V map2
图15: 同一场景 11V map2

6.4 支持不同版本的 Diffusion

支持不同版本的 Diffusion
图16: 支持不同版本的 Diffusion 模型 (SDXL)