手动视频分镜的时代结束了
你有一个故事创意——两只猫和一只新来的猫咪之间的搞笑相遇。你想把它做成一个卡通短片。但即使是制作一个简单的动画视频,也需要写剧本、设计分镜、塑造一致的角色、拍摄场景、剪辑画面、添加音频——传统流程需要一支完整的创作团队来完成。
如果只需描述你的创意,就能得到一个精美的成品视频呢?
这正是 ViMax 能做到的事情。由香港科技大学(HKU)研究人员开发,ViMax 是一个开源的智能体 AI 框架,能够将原始创意、剧本甚至小说章节自动转化为完成的视频——无需分镜师、无需动画师、无需手动场景规划。只需描述、配置,然后让 AI 智能体处理一切。
| 指标 | 数值 |
|---|---|
| GitHub 星标 | 3,600+(趋势中——Python Trending 每日增长 +108 星标) |
| 许可证 | MIT |
| 语言 | Python 3.12 |
| 依赖管理 | uv(超轻量化包管理器) |
| 智能体架构 | 多智能体编排管线 |
| 模型支持 | Google Gemini、OpenRouter、MiniMax |
| 图像生成 | Nanobanana / Google API |
| 视频生成 | Veo / Google API |
| 核心贡献者 | 从启动以来活跃开发,已有 329 次提交 |
ViMax 是什么?
ViMax 不仅仅是另一个只能生成五秒片段的 AI 视频生成器。它是一个端到端视频创作引擎,建立在多智能体架构之上,处理专业视频制作的每一个阶段:
- 剧本理解 — 从输入中提取角色、环境、风格意图和场景边界
- 分镜设计 — 根据目标受众创建电影语言的镜头级分镜
- 参考图选择 — 智能挑选视觉参考图,确保数百个镜头中的角色一致性
- 自动化图像生成 — 生成逐帧视觉效果,附带空间定位逻辑
- 一致性验证 — 使用 MLLM/VLM 模型验证角色和环境的一致性
- 并行镜头渲染 — 同时处理连续镜头以实现高产出率
- 音视频绑定 — 将配音和音效与视觉内容同步
把它想象成一个整个电影剧组——导演、编剧、摄影师、剪辑师和音响设计师——根据你的创意方向自主工作。
四种创意模式适用于每种用例
🌟 Idea2Video:从灵感到大银幕
最易上手的入口。只需提供一个概念,比如*“如果猫和狗是最好的朋友,当它们遇到新猫会发生什么?”* 以及任何创意约束(“面向儿童,不超过3个场景”)。ViMax 自动生成完整剧本、设计分镜、创建角色参考图和最终视频。
这种方式消除了想象与执行之间的鸿沟——无需写作技巧或技术知识。
🎨 Novel2Video:智能文学改编
将整本小说转化为系列视频内容。ViMax 基于 RAG 的脚本设计引擎分析长篇素材,智能压缩叙事、提取关键情节发展和对白,并将其分割为结构化的多场景视频脚本。
作家、教育工作者和内容创作者可以无需聘请改编专家,就将文学作品转化为引人入胜的视觉内容。
⚙️ Script2Video:无限剧本创作
写下你自己的剧本,看它变得栩栩如生。无论是个人故事、史诗冒险还是对话驱动的戏剧,Script2Video 让你完全控制每个方面,而智能体负责可视化、相机角度和渲染。
专业电影制作人可以将此用作快速原型设计工具——在实际投入昂贵的实景制作之前,测试视觉概念的预览效果。
🤳 AutoCameo:互动式个人视频
上传一张照片(你的或你的宠物),ViMax 会将你作为一个一致的角色融入无限创意剧本、电影序列和互动故事中。想象一下作为客串明星出现在几十个 AI 生成的短片中——所有这些都具有一致的面部特征和自然的互动。
架构深度解析
ViMax 通过分层管线运行,该管线模仿了好莱坞的传统制作方式,但完全自主地运行:
输入层
├── 创意 & 剧本 & 小说
├── 自然语言提示词
├── 参考图像
├── 风格指令
└── 配置文件
中央编排层
├── 智能体调度
├── 阶段转换
├── 资源管理
└── 重试/回退逻辑
制作管线
├── 剧本理解(角色提取 → 场景边界)
├── 场景与镜头规划(分镜步骤 → 关键帧)
├── 视觉资产规划(参考选择 → 风格引导)
├── 资产索引(帧目录 → 嵌入 → 检索)
├── 一致性与连续性(角色追踪 → 时间连贯性)
└── 视觉合成(图像生成 → 最佳帧选择 → 视频装配)
输出层
├── 单独帧
├── 片段与最终视频
├── 制作日志
└── 工作目录产物
中央编排层是系统的大脑。它安排哪个智能体下一个运行、管理资源分配、处理创作阶段之间的状态转换,并在某个智能体的输出未达到质量阈值时实施重试/回退逻辑。这模拟了人类导演在绿牌批准下一阶段制作之前审查每个创作阶段的过程。
一致性与连续性模块尤其具有创新性。大多数 AI 视频工具在处理跨不同场景的角色一致性方面存在不足——角色在第2场可能看起来完全不同于第1场。ViMax 通过智能参考图选择和时间连贯性追踪来解决这个问题,在可能数百个生成镜头中保持角色准确性。
安装与快速入门
前置条件
- Linux 或 Windows 操作系统
- Git 已安装
- uv 包管理器(Python 依赖安装器)
分步设置
# 克隆仓库
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
# 使用 uv 安装依赖
uv sync
配置
在 configs/idea2video.yaml 中创建配置文件。你需要配置三个组件:
chat_model:
init_args:
model: google/gemini-2.5-flash-lite-preview-09-2025
model_provider: openai
api_key: <YOUR_OPENROUTER_API_KEY>
base_url: https://openrouter.ai/api/v1
image_generator:
class_path: tools.ImageGeneratorNanobananaGoogleAPI
init_args:
api_key: <YOUR_GOOGLE_IMAGE_API_KEY>
video_generator:
class_path: tools.VideoGeneratorVeoGoogleAPI
init_args:
api_key: <YOUR_GOOGLE_VIDEO_API_KEY>
working_dir: .working_dir/idea2video
ViMax 开箱即用地支持多个聊天模型提供商:
| 提供商 | 模型 | 上下文窗口 | 说明 |
|---|---|---|---|
| OpenRouter (OpenAI) | Gemini 2.5 Flash Lite | 128K | 提供免费层级 |
| MiniMax | MiniMax-M2.7 | 100万 token | 推荐用于长剧本 |
| MiniMax | MiniMax-M2.5 | 20万 token | 稳定性能 |
| Google AI Studio | Gemini Pro | 128K | 原生支持已添加 |
对于 MiniMax,只需在配置中设置 model_provider: minimax——基础 URL 会自动解析:
chat_model:
init_args:
model: MiniMax-M2.7
model_provider: minimax
api_key: <YOUR_MINIMAX_API_KEY>
或使用环境变量:
export MINIMAX_API_KEY=<YOUR_KEY>
运行你的第一个视频
在 main_idea2video.py 中编辑你的创意输入:
idea = """
如果猫和狗是最好的朋友,当它们遇到新猫会发生什么?
"""
user_requirement = """
面向儿童,不超过3个场景。
"""
style = "卡通"
然后运行:
python main_idea2video.py
管线将自动执行所有阶段——剧本生成、分镜创建、角色设计、图像生成、一致性检查、视频装配——并在你配置的工作目录中输出完整的视频文件。
对于基于脚本的工作流程,请改用 main_script2video.py,直接提供剧本:
script = """
外景。学校体育馆 - 白天
一群学生正在体育馆里练习篮球...
约翰:我要投篮得分!
简:干得好,约翰!
"""
实际应用场景
内容创作者和社交媒体
YouTube Shorts、TikTok 和 Instagram Reels 的内容创作者无需拍摄设备或编辑软件即可制作日常视频内容。从文本提示词生成趋势短视频,毫不费力地跟上平台算法。
教育和培训
教育家将教科书章节和历史叙事转化为引人入胜的动画课程。Novel2Video 模式对文学课特别强大——将经典小说改编成视觉摘要,提高学生的理解和参与度。
娱乐行业前期制作
电影工作室使用 Script2Video 作为预可视化工具。在投资实体布景和选角之前,导演可以生成粗略的视觉草稿来评估节奏、镜头构图和叙事流。这大大降低了前期制作成本并加快了决策速度。
个性化儿童故事
父母创建定制睡前故事,让孩子成为主角。AutoCameo 模式将孩子的照片融入故事情节,创造独特的个性化视频体验,增强阅读兴趣和家庭亲密时光。
营销与广告
品牌快速制作视频广告原型。测试多种创意方向、角色风格和信息变化,无需传统广告制作机构的费用。根据观众反馈快速迭代。
ViMax 与其他 AI 视频工具对比
| 功能 | ViMax | Runway ML | Pika Labs | Kaiber |
|---|---|---|---|---|
| 创意到视频管线 | ✅ 全自动管线 | ❌ 手动提示 | ❌ 仅短片段 | ❌ 单场景 |
| 角色一致性 | ✅ 多镜头追踪 | ⚠️ 有限 | ❌ 不支持 | ⚠️ 基础 |
| 剧本/小说输入 | ✅ 三种模式 | ❌ 仅文本提示 | ❌ 文本提示 | ⚠️ 基础 |
| 开源 | ✅ MIT 许可 | ❌ 闭源 | ❌ 闭源 | ❌ 闭源 |
| 自定义模型集成 | ✅ 可插拔提供商 | ❌ 专有 | ❌ 专有 | ❌ 专有 |
| 成本 | 免费(需支付 API 费用) | $12+/月 | $8+/月 | $5+/月 |
| 本地处理 | 部分(模型云端运行) | ❌ 仅云端 | ❌ 仅云端 | ❌ 仅云端 |
ViMax 的关键差异化在于其自主多智能体管线。像 Runway 和 Pika 这样的工具从单个提示词生成简短的孤立片段,而 ViMax 协调完整的创意流程——从叙事理解到角色设计、分镜制作、生产和后期处理——全部具备持久性的角色和场景一致性。
与商业 AI 视频平台的比较
Runway ML 仍然是手动 AI 辅助视频编辑的行业领导者,但在每个创意决策点上需要大量用户输入。Pika Labs 擅长快速风格化动画,但在多场景连续性方面表现不佳。Kaiber 提供音乐视频聚焦的制作,但缺乏 ViMax 通过其脚本分析引擎提供的叙事深度。
ViMax 结合了这些方法的优势——既拥有创意自由(类似手动工具),又拥有自动化(类似单提示生成器)。结果是以最少用户 effort 实现专业品质的输出。
入门清单
为了帮助你快速开始,请按以下步骤操作:
- 设置环境 — 安装 Git 和 uv,克隆 ViMax 仓库,运行
uv sync - 获取 API 密钥 — 注册 OpenRouter(免费层级)获取聊天模型,以及 Google API 进行图像/视频生成
- 配置你的第一个项目 — 使用首选提供商设置创建
configs/idea2video.yaml - 生成你的第一个视频 — 在
main_idea2video.py中编写简单创意并运行管线 - 探索高级模式 — 尝试用你自己的剧本使用 Script2Video,或用短篇小说使用 Novel2Video
- 微调配置 — 调整模型提供商、添加自定义参考图、实验风格参数
- 加入社区 — 通过存储库通信指南中链接的飞书或微信群组连接
需要注意的局限性
尽管 ViMax 代表了智能体视频生成的重大进步,但目前仍有一些限制:
- 输出分辨率取决于你配置的底层图像/视频生成模型
- 音频生成主要是绑定/对齐而非原创配乐制作
- GPU 要求对于使用本地模型的高分辨率生成可能很大
- 剧本长度限制 — 很长的小说(超过 50 页)可能需要分块处理
- 平台稳定性 — 项目处于积极开发中(329 次提交)但仍然在发展成熟
为什么 ViMax 对未来内容创作至关重要
我们正在见证想象力与视觉表达之间壁垒的崩溃。二十年前,制作一部短片需要摄像机、演员、灯光设备、剪辑室和数月的工作。今天,ViMax 让任何有创意想法和互联网连接的人都能制作多场景、角色一致的动画视频。
影响远远超出娱乐领域。教育变得可视化且易于获取。叙事民主化——任何人都可以成为电影制作人。前期制作流水线从数周加速到数小时。最重要的是,创意不再受限于技术执行能力。
ViMax 不仅仅是一个工具——它是证明智能体 AI 系统现在能够处理复杂的多阶段创意过程,并产出媲美专业制作质量的成果的证据。随着生态系统的成长和更多模型提供商的集成,期待在未来几个月内看到更复杂的视频生成能力。
结论
来自 HKU 的 ViMax 站在智能体视频生成的最前沿。其多智能体架构、全面的创意管线和开源性质使其对每个人来说都是可访问的,从内容创作者到好莱坞前期制作团队。无论你是想将一个异想天开的想法转化为卡通短片、将心爱的小说改编成系列视频,还是为你的下一部剧本制作原型,ViMax 都提供了实现的基石。
该技术目前已经足够成熟,可以进行严肃的实验。设置你的环境,连接你偏好的 AI 模型提供商,然后开始将创意转化为视频。内容创作的未来是自动化的,ViMax 正引领这场变革。
相关文章
- AgentMemory:AI 编程智能体如何实现持久记忆并将 Token 成本降低 92%
- UI-TARS Desktop:如何用字节跳动开源多模态 AI 智能体栈实现桌面和浏览器任务自动化
- Rowboat AI Coworker:带有持久记忆的开源 AI 如何转变团队协作效率
- Hello-Agents:Datawhale 的开源 AI 智能体教程如何帮助你从零构建生产级智能体
最后更新:2026年5月9日。ViMax 由 HKU-Digital Society 研究团队积极维护,定期发布功能更新和社区贡献。