可控数据生成项目

利用先进的生成模型，实现多样化交通场景的视频生成与模拟

1. 项目简介

本项目致力于通过可控的数据生成技术，生成多样化且时空一致的交通场景视频。利用大规模语言模型（LLM）和先进的扩散模型（Diffusion Models），实现基于文本提示的高质量交通模拟系统，支持多视图视频生成，以满足自动驾驶、交通规划等多领域的需求。

2. 数据合成最近工作

2.1 DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

DriveDreamer-2 通过集成大型语言模型（LLM）增强的世界模型，能够生成多样化的驾驶视频。系统基于文本提示生成符合交通规则的高清地图（HDMap），并确保生成视频的时空一致性，为自动驾驶系统提供高质量的数据支持。

DriveDreamer-2 — 图1: DriveDreamer-2 系统架构图

2.2 DrivingDiffusion: Layout-Guided Multi-view Driving Scene Video Generation with Latent Diffusion Model

DrivingDiffusion 是一个时空一致的多视图视频生成框架，利用潜在扩散模型（Latent Diffusion Model）指导的布局生成，确保多视角下的视频内容一致且连贯。该框架通过多视图单帧生成、单视图视频生成以及后处理优化，显著提升了生成视频的质量与一致性。

DrivingDiffusion — 图2: DrivingDiffusion 系统架构图

3. 输入与输出

3.1 输入

场景描述 (S): S = {M, B, L, I}
M: w×h×c 的二进制鸟瞰图道路地图
B: N 个 3D 边界框及其类别 {(ci, bi)} N_i=1
L: 场景文本描述，如天气、时间、车道线、3D 框 GT 类别等
I: w×h×3 的参考图像
相机参数 (P): P = [K, R, T]

生成管道 — 图3: 基于 ControlNet 和 Stable Diffusion 的生成管道

3.2 输出

生成的多视图驾驶视频，支持不同天气和时间条件
确保生成视频的时空一致性和交通规则遵循

4. 主要职责

4.1 系统目标

通过文本提示生成多样化的交通场景
提供 Drive 视频生成的交通条件
确保生成视频的时空一致性

4.2 个人负责内容

单帧生成模块:
- 基于 MagicDrive，支持内部多视角（4 鱼眼、7V、11V）的数据生成与编辑。
- 生成数据中包含 3D 边界框（3D BBox）和地图标签，确保数据的完整性和可用性。
- 优化单帧生成任务的算法流程，提高生成效率和结果精度。
视频生成模块:
- 设计自回归模型，实现连续帧的高质量生成，确保时序一致性。
- 集成 DDIM（Denoising Diffusion Implicit Models），优化推理速度并提升生成视频的图像质量。
- 支持文本或离线 BEV 交通流作为条件输入，生成符合实际驾驶场景的视频。
- 利用 OpenSora-STDiT 技术，显著提升视频的时间连贯性和图像质量。
- 引入 ControlNet，对齐时序条件（condition）和时序 latent 特征，实现可控的多维度环视视频生成 (B, T, V, 3, H, W)。
- 实现环视视频一次性生成，支持多视角（4 鱼眼、7V、11V）数据的自动化生成。

5. 架构设计

5.1 解决方案架构

多视图单帧生成:
- 通过相邻摄像机信息交换确保视图一致性
- 引入参考帧提示提升图像和视频生成质量
单视图视频生成:
- 多相机共享机制
- 基于首帧多视图信息指导后续帧生成
后处理优化:
- 增强后续帧的跨视图一致性
- 通过DDIM算法改善前后帧生成一致性和质量

架构设计 — 图4: 解决方案架构设计

6. 模型效果评估与可视化

6.1 自回归版本效果

支持 768×960 分辨率
生成的 4 鱼眼图像效果:

图5: 白天常规场景

图6: 下雨场景

图7: 夜晚场景

6.2 非自回归版本的单帧效果

Fov120-1V（分辨率为 544×960）:

Fov120-1V-0 — 图8: Fov120-1V-0

Fov120-1V-1 — 图9: Fov120-1V-1

Fov120-1V-2 — 图10: Fov120-1V-2

Fov120-1V-3 — 图11: Fov120-1V-3

6.3 多样性生成效果

同一场景的多样性生成:

同一场景 7V map1 — 图12: 同一场景 7V map1

同一场景 7V map2 — 图13: 同一场景 7V map2

同一场景 11V map1 — 图14: 同一场景 11V map1

同一场景 11V map2 — 图15: 同一场景 11V map2

6.4 支持不同版本的 Diffusion

支持不同版本的 Diffusion — 图16: 支持不同版本的 Diffusion 模型 (SDXL)