OpenMontage 评测:世界上第一个开源自主视频制作系统(52 个工具,12 个流程,500 多项技能)

OpenMontage (8.3K+ GitHub stars) is the world's first open-source, agentic video production system. 12 production pipelines, 52 tools, 500+ agent skills. Turn any AI coding assistant into a full video studio — from animated explainers to cinematic trailers to real-footage documentaries. Zero API keys needed for basic output.

  • Python 3.10+
  • FFmpeg
  • Node.js 18+
  • Remotion
  • HyperFrames
  • Piper TTS
  • AGPL-3.0
  • 更新于 2026-06-22

The Problem With Current AI Video Tools #

每一个在2025年进入主流认知的AI视频工具——Sora、Runway Gen-4、Pika、Luma Dream Machine、Kling——都存在相同的基本限制:它们都是单提示生成短视频。你输入一个描述,等待60秒,就会收到一个5到30秒的视频片段,没有剧本、没有叙事结构、没有同步音频,也没有质量验证。

对于生成独立的视觉片段,这样做效果不错。对于制作实际视频——解释性内容、产品演示、纪录片剪辑、动画短片——一旦需要多个连贯场景,这个工作流程就会崩溃。

“生成一个剪辑"和"制作一个视频"之间的差距是巨大的。它需要:

  • 研究 — 收集准确的数据、趋势角度和视觉参考
  • 脚本写作 — 将信息结构化为连贯的叙述并掌握节奏
  • 素材生成 — 创建或获取图片、视频片段、音乐和旁白
  • 编辑 — 将素材按时间线组装,并加入转场、字幕和特效
  • 质量验证 — 确保输出符合创意简报

没有单一的人工智能模型能够完成所有这些任务。但一个通过结构化生产流程协调多种专用工具的系统可以做到。

OpenMontage(GitHub:calesthio/OpenMontage,截至2026年6月拥有8,273+颗星)是世界上第一个开源的、具自主智能的视频制作系统,专为填补这一具体空白而设计。它提供12条制作流程、52种工具,以及500+智能体技能,将任何AI编程助手转变为完整的视频制作工作室。

How OpenMontage Works #

OpenMontage 使用 以代理为先的架构。没有中央协调程序。你的 AI 编程助手——Claude Code、Cursor、Copilot、Windsurf 或 Codex——就是协调者。

该系统通过三层知识来运行:

Layer 1: tools/ + pipeline_defs/     "What exists" — executable capabilities + orchestration
Layer 2: skills/                      "How to use it" — OpenMontage conventions and quality bars
Layer 3: .agents/skills/              "How it works" — external technology knowledge packs

你用简单语言描述你的需求。代理会读取管道清单(YAML)以了解可用的阶段、工具和评审标准。它会读取阶段主管技能(Markdown)以学习如何执行每个阶段。它调用 Python 工具进行评分提供者选择,用评审者技能进行自我评审,将状态记录在 JSON 中,并在每个阶段向你展示创意决策以供批准。

完整的生产流程:

research → proposal → script → scene_plan → assets → edit → compose

每个阶段都有一个专门的指令技能——一个 Markdown 指令文件,教导代理如何准确执行该阶段。代理会阅读技能、使用工具、自我审查、检查状态,并在创造性决策点请求人工批准。

网络研究是一个一流的阶段。在写下任何一行剧本之前,代理人会搜索 YouTube、Reddit、Hacker News、新闻网站和学术资源。它收集数据点、观众问题、热门角度和视觉参考——然后将所有内容在结构化的研究简报中引用。视频的内容基于真实的、最新的信息,而非虚构的事实。

The 12 Production Pipelines #

每个流程线都是从创意到成品视频的完整制作工作流程:

Pipeline What It Produces Best For
Animated Explainer AI-generated explainer with research, narration, visuals, music Educational content, tutorials, topic breakdowns
Animation Motion graphics, kinetic typography, animated sequences Social media, product demos, abstract concepts
Avatar Spokesperson Avatar-driven presenter videos Corporate comms, training, announcements
Cinematic Trailer, teaser, and mood-driven edits Brand films, teasers, promotional content
Clip Factory Batch of ranked short-form clips from one long source Repurposing long content for social media
Documentary Montage Thematic montage from CLIP-indexed corpus of free stock footage Video essays, mood pieces, real-footage documentaries
Hybrid Source footage + AI-generated support visuals Enhancing existing footage with graphics
Localization & Dub Subtitle, dub, and translate existing video Multi-language distribution
Podcast Repurpose Podcast highlights to video Podcast marketing, audiogram videos
Screen Demo Polished software screen recordings and walkthroughs Product demos, tutorials, documentation
Talking Head Footage-led speaker videos Presentations, vlogs, interviews
Character Animation Rigged SVG character animation with GSAP timelines Cartoon characters, animated storytelling

每个流程都遵循相同的结构化流程:研究 → 提案 → 脚本 → 场景计划 → 资源 → 编辑 → 组合。代理首先选择正确的流程,阅读清单,阅读阶段技能,并使用工具。

Zero-API-Key Production #

你不需要付费的 API 密钥就可以制作真实视频。开箱即用,make setup 会为你提供:

Capability Free Tool What It Does
Narration Piper TTS Free offline text-to-speech — real human-sounding narration
Open footage Archive.org + NASA + Wikimedia Commons Free/open archival footage, educational media, documentary texture
Extra stock Pexels + Unsplash + Pixabay Free stock footage/images (developer keys are free to get)
Composition (React) Remotion React-based rendering — spring-animated image scenes, text cards, stat cards, charts, TikTok-style word-level captions
Composition (HTML/GSAP) HyperFrames HTML/CSS/GSAP rendering — kinetic typography, product promos, launch reels, rigged SVG character animation
Post-production FFmpeg Encoding, subtitle burn-in, audio mixing, color grading
Subtitles Built-in Auto-generated captions with word-level timing

立即可用两条免费的生产路径:

  1. 基于图像的视频: Piper 讲述你的脚本,图像提供视觉效果,而 Remotion 将它们制作成精美的剪辑。
  2. 真实影像纪录片: 系统从 Archive.org、NASA、Wikimedia Commons 以及可选的免费资源如 Pexels 和 Unsplash 构建一个可通过 CLIP 搜索的语料库,然后将实际的动态影像剪辑成完成的视频。

对于真实影像路径,请提示 纪录片蒙太奇语调诗素材镜头拼贴,并明确说明 仅使用真实影像

适用于零 API 密钥的示例提示:

"Make a 45-second animated explainer about why the sky is blue"
"Create a 60-second video about the history of the internet, with narration and captions"
"Make a data-driven explainer about coffee consumption around the world"

With Paid API Keys: Expanded Capabilities #

添加 API 密钥可以解锁更高质量的资源。以下是供应商情况:

Video Generation — 14 providers #

Provider Type Notes
Kling Cloud API High quality, fast
Runway Gen-4 Cloud API Cinematic quality, Gen-3 Alpha Turbo / Gen-4 Turbo / Gen-4 Aleph
Google Veo 3 Cloud API Long-form, cinematic. Via fal.ai or HeyGen.
Grok Imagine Video Cloud API Strong reference-image video and xAI-native short-form generation
Higgsfield Cloud API Multi-model orchestrator with Soul ID for character consistency
MiniMax Cloud API Cost-effective
HeyGen Cloud API Multi-model gateway
WAN 2.1 Local GPU Free, 1.3B and 14B variants
Hunyuan Local GPU Free, high quality
CogVideo Local GPU Free, 2B and 5B variants
LTX-Video Local GPU / Modal Free locally, or self-hosted cloud

Image Generation — 10 tools/providers #

Provider Type Notes
FLUX Cloud API State-of-the-art quality
Google Imagen Cloud API Imagen 4 — high-quality, multiple aspect ratios
Grok Imagine Image Cloud API Strong image edits, style transfer, and multi-image compositing
DALL-E 3 Cloud API OpenAI's image model
Recraft Cloud API Design-focused generation
Local Diffusion Local GPU Stable Diffusion, free

Text-to-Speech — 4 providers #

Provider Type Notes
ElevenLabs Cloud API Premium voice quality
Google TTS Cloud API 700+ voices, 50+ languages — best for localization
OpenAI TTS Cloud API Fast, affordable
Piper Local Completely free, offline

Music & Sound #

Provider Type Notes
Suno AI Cloud API Full song generation with vocals, lyrics, any genre. Up to 8 minutes.
ElevenLabs Music Cloud API AI music generation
ElevenLabs SFX Cloud API Sound effect generation

Production Governance and Quality Gates #

OpenMontage 将视频制作视为真正的工程——在每个阶段都有质量关卡、审计追踪和执行。

Pre-Compose Validation #

如果交付承诺被违反(例如,“动作主导”视频中有80%的静态图像)、幻灯片风险评分为关键,或渲染器系列缺失,将阻止渲染。在浪费GPU时间之前捕获损坏的计划。

Post-Render Self-Review #

在每次渲染之后,运行时都会执行 ffprobe 验证,在 4 个位置提取帧以检查黑屏帧和损坏的覆盖层,分析音频水平以检测静音和削波,验证交付承诺是否得到遵守,并检查字幕的存在。如果审核失败,视频将不会呈现给用户。

Slideshow Risk Scoring #

六维分析——重复、装饰性视觉、动作薄弱、镜头意图、过度依赖排版、缺乏支持的电影化主张——可以防止“动画化幻灯片”输出。

Scored Provider Selection #

每个工具选择(视频生成、图像生成、文本转语音、音乐)都通过一个7维评分引擎:

Dimension Weight
Task Fit 30%
Output Quality 20%
Control Features 15%
Reliability 15%
Cost Efficiency 10%
Latency 5%
Continuity 5%

获胜的提供者及其分数会与所有考虑过的备选方案一起记录在决策轨迹中。选择器在评分前会对松散的简要上下文进行规范化——如果代理只知道“皮克斯风格的动画短片且角色保持一致”,选择器会将其扩展为适合评分器的意图和风格信号。

Budget Controls #

  • 执行前估算 — 查看成本
  • 预留预算 — 呼叫前锁定资金
  • 执行后对账 — 记录实际开支
  • 可配置模式observe(仅跟踪)、warn(记录超支)、cap(硬性上限)
  • 每操作审批 — 超过阈值暂停等待确认(默认:$0.50)
  • 总预算上限 — 默认$10,完全可配置

没有意外账单。代理会在花费之前告诉你费用是多少。

Architecture Overview #

OpenMontage/
├── tools/              # 48 Python tools (the agent\'s hands)
│   ├── video/          # 13 video gen tools + compose, stitch, trim
│   ├── audio/          # 4 TTS providers + Suno/ElevenLabs music, mixing, enhancement
│   ├── graphics/       # 9 image/graphics generation tools + diagrams, code snippets, math
│   ├── enhancement/    # Upscale, bg remove, face enhance, color grade
│   ├── analysis/       # Transcription, scene detect, frame sampling
│   ├── avatar/         # Talking head, lip sync
│   └── subtitle/       # SRT/VTT generation
│
├── pipeline_defs/      # YAML pipeline manifests (the agent\'s playbook)
├── skills/             # Markdown skill files (the agent\'s knowledge)
│   ├── pipelines/      # Per-pipeline stage director skills
│   ├── creative/       # Creative technique skills
│   ├── core/           # Core tool skills
│   └── meta/           # Reviewer, checkpoint protocol
│
├── schemas/            # 15 JSON Schemas (contract validation)
├── styles/             # Visual style playbooks (YAML)
├── remotion-composer/  # React/Remotion video composition engine
├── lib/                # Core infrastructure (config, checkpoints, pipeline loader)
└── tests/              # Contract tests, QA integration tests, eval harness

该系统使用三个知识层。层 1(tools/ + pipeline_defs/)告诉代理存在什么。层 2(skills/)告诉它如何使用 OpenMontage 的规范和质量标准。层 3(.agents/skills/)为外部工具和提供者提供深入的技术知识。

Agent Compatibility #

OpenMontage 可与任何可以读取文件并执行 Python 的 AI 编码助手配合使用。随附的专用说明文件包括:

Platform Config File
Claude Code CLAUDE.md
Cursor CURSOR.md + .cursor/rules/
GitHub Copilot COPILOT.md + .github/copilot-instructions.md
Codex CODEX.md
Windsurf .windsurfrules

所有平台文件都指向共享的 AGENT_GUIDE.md(操作指南和代理合同)和 PROJECT_CONTEXT.md(架构参考)。

通过 Ollama 和 LM Studio 的本地 LLM 支持即将到来,这将能够在没有任何云 LLM 的情况下运行完整的生产流程。

Installation and Setup #

Prerequisites #

  • Python 3.10+python.org
  • FFmpegbrew install ffmpeg / sudo apt install ffmpeg
  • Node.js 18+nodejs.org
  • 一个 AI 编程助手 — Claude Code、Cursor、Copilot、Windsurf 或 Codex

Install #

git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup

在你的 AI 编程助手中打开项目,并告诉它你想要什么:

"Make a 60-second animated explainer about how neural networks learn"

或者对于真实视频路径:

"Make a 75-second documentary montage about city life in the rain. Use real footage only, no narration, elegiac tone, with music."

该代理通过实时网络搜索研究你的主题,生成AI图像,撰写并用语音指导进行解说,自动查找免版税背景音乐,嵌入逐字字幕,并渲染最终视频。在你看到任何内容之前,系统会运行多点自检——包括ffprobe验证、帧采样、音频电平分析、交付承诺验证以及字幕检查。

如果你有GPU,你可以解锁免费的本地视频生成:

make install-gpu
# Then add to .env:
# VIDEO_GEN_LOCAL_ENABLED=true
# VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b  # or wan2.1-14b, hunyuan-1.5, ltx2-local, cogvideo-5b

Optional API Keys #

每个 API 密钥都是可选的。请添加您已有的:

# Image + video gateway:
FAL_KEY=your-key               # FLUX images + Google Veo, Kling, MiniMax video + Recraft

# Free stock media:
PEXELS_API_KEY=your-key        # Free stock footage and images
PIXABAY_API_KEY=your-key       # Free stock footage and images
UNSPLASH_ACCESS_KEY=your-key   # Free stock images

# Music:
SUNO_API_KEY=your-key          # Full songs, instrumentals, any genre

# Voice & images:
ELEVENLABS_API_KEY=your-key    # Premium TTS, AI music, sound effects
OPENAI_API_KEY=your-key        # OpenAI TTS, DALL-E 3 images
GOOGLE_API_KEY=your-key        # Google Imagen images, Google TTS (700+ voices)

Comparison: OpenMontage vs. Competitors #

Feature OpenMontage Sora Runway Pika
Full production pipeline Yes (12 pipelines) No No No
Script writing Automated with web research Manual Manual Manual
Narration/TTS Built-in (Piper, ElevenLabs, Google) Limited Manual Manual
Music generation Suno, ElevenLabs Music No No No
Subtitle burning Auto word-level Manual Manual Manual
Quality gates Pre/post-compose validation None None None
Budget controls Cost estimation + caps N/A N/A N/A
Free tier Full pipeline at zero cost Paid only Paid only Paid only
Real footage docs Documentary Montage pipeline No No No
Agent compatible Claude, Cursor, Copilot, Codex, Windsurf Web UI Web UI Web UI

OpenMontage 不是一个视频生成模型。它是一个制作协调系统,可以使用任何视频生成模型作为其流程中的众多工具之一。这使得它在本质上不同于 Sora、Runway 和 Pika,它们本身就是生成模型。

以下是按复杂性和输出类型整理的经过测试的提示。每个提示都会通过您的 AI 编码助手触发完整的生产流程:

# Beginner — zero keys needed
"Make a 45-second animated explainer about why the sky is blue"
"Create a 60-second video about the history of the internet, with narration and captions"
"Make a data-driven explainer about coffee consumption around the world"
# Intermediate — needs one image provider (~$0.15-$0.50)
"Create a 30-second Ghibli-style animated video of a magical floating library in the clouds at golden hour"
"Make a 30-second anime-style animation of an underwater temple with bioluminescent coral"
"Create an animated explainer about how CRISPR gene editing works, using AI-generated visuals"
# Advanced — full setup (~$1-$3)
"Create a cinematic 30-second trailer for a sci-fi concept: humanity receives a warning from 1000 years in the future"
"Make a 90-second animated explainer about quantum computing for middle school students, with a fun narrator voice and custom soundtrack"
# Reference-driven — start from an existing video
"Here\'s a YouTube Short I love. Make me something like this, but about CRISPR for high school students."
"Analyze this Reel and give me 3 original variants I could make for my own product launch."
"I like the pacing and hook in this video. Keep that energy, but turn it into a 45-second explainer about black holes."
# Real-footage documentary path
"Make a 90-second documentary montage about what a city feels like at 4am. Use real footage only, no narration, elegiac tone."
"Create a 60-second Adam-Curtis-style archival collage about 1950s consumer optimism. Prefer Archive.org and Wikimedia footage."
"Cut together a dreamlike montage about coming home in the rain using real stock footage only. Music yes, narration no."

有关更多经过测试的提示及预期成本和输出示例,请参见仓库中的 Prompt Gallery,或运行 make demo 即可立即渲染零键演示视频。

Use Cases #

Educational Content #

使用基于研究的脚本、自然的旁白和视觉辅助创建动画解说视频。该代理会搜索最新数据,编写结构化脚本,生成相关视觉内容,并使用 Remotion 或 HyperFrames 将所有内容组合在一起。

Social Media Clips #

使用 Clip Factory 流程将长篇内容重新制作成短片。根据互动潜力对短片进行排名,并按照平台特定的纵横比自动格式化为 YouTube Shorts、TikTok 和 Instagram Reels。

Product Demos #

生成带有旁白、注释和品牌风格的精美屏幕录制。Screen Demo 流程处理具有一致视觉识别的软件演示。

Documentary Production #

从免费和开放的影像资料来源构建主题蒙太奇。《纪录片蒙太奇》流程使用 CLIP 嵌入对 Archive.org、NASA 和 Wikimedia Commons 进行索引,检索语义相关的片段,并将它们编辑成具有音乐和字幕的连贯叙事。

Multi-Language Distribution #

使用本地化与配音流程,将现有视频翻译并配音成10多种语言,使用Google TTS(700多种声音)或ElevenLabs语音克隆。

Limitations and Honest Assessment #

OpenMontage 很令人印象深刻,但并不是魔法。有几个限制值得理解:

  1. 代理依赖。 该系统需要一个能够读取文件、执行 Python 并遵循结构化指令的 AI 编码助手。它没有独立的网页用户界面。您需要熟悉 Claude Code、Cursor 或 Codex 等工具。

  2. 质量因供应商而异。 免费套餐(Piper TTS + Remotion + 库存图片)可以生成可用的内容,但不是高端质量。要达到 Sora/Runway 的质量,需要付费的视频生成 API(Kling、Veo、Runway Gen-4),费用根据视频的复杂程度,每个视频 $0.15-$3.00 不等。

  3. 生产时间长。 一个完整的流水线运行(研究 → 提案 → 脚本 → 资源 → 合成 → 验证)通常需要 10-30 分钟,具体取决于流水线的复杂性和 API 速度。这不是即时生成。

  4. 本地模型的 GPU 要求。 在本地运行 WAN 2.1、Hunyuan 或 CogVideo 需要大量显存(1.3B 模型需要 8GB 以上,14B 模型需要 24GB 以上)。没有 GPU 的情况下,必须使用云服务提供商。

  5. AGPL-3.0 许可证。 OpenMontage 采用 AGPL-3.0 许可证,这要求衍生作品必须开源。对于商业闭源产品,您需要仔细审核许可条款的影响或联系作者。

  6. 没有原生移动应用。 该系统在桌面上运行,使用 Python + Node.js。没有移动端编辑或生产功能。

Quality Gate Configuration #

OpenMontage 的质量系统可以通过环境变量和配置文件进行自定义:

# .env quality gate settings
SLIDESHOW_RISK_THRESHOLD=0.7
PRE_COMPOSE_VALIDATION=true
POST_RENDER_SELF_REVIEW=true
AUDIO_LEVEL_MIN=-30
AUDIO_LEVEL_MAX=-3
MAX_STILL_IMAGE_RATIO=0.3
MIN_VIDEO_DURATION_SECONDS=10
// .openmontage/config.json — pipeline quality overrides
{
  "quality_gates": {
    "slideshow_risk": { "enabled": true, "threshold": 0.7 },
    "pre_compose_validation": { "enabled": true },
    "post_render_review": { "enabled": true, "frame_positions": [0.25, 0.5, 0.75] },
    "audio_analysis": { "min_level_db": -30, "max_level_db": -3, "silence_threshold_ms": 500 }
  },
  "budget": {
    "mode": "cap",
    "total_cap_usd": 10,
    "per_action_approval_threshold": 0.50
  }
}

这些设置控制系统何时阻止渲染、标记风险以及需要人工审批。根据您的质量要求和预算限制调整阈值。

Getting Started #

尝试 OpenMontage 的最快方法:

  1. 克隆仓库:git clone https://github.com/calesthio/OpenMontage && cd OpenMontage && make setup
  2. 在 Claude Code 或 Cursor 中打开
  3. 提示:"制作一个关于天空为什么是蓝色的45秒动画解释视频"
  4. 观看智能体进行研究、撰写脚本、生成素材、组合和验证
  5. 审查输出——每一个创意决策都会记录理由

对于参考驱动的创作,粘贴你喜欢的视频,并让代理制作一个在不同主题上的类似作品。代理会分析参考视频的字幕、节奏、场景和关键帧,然后制定一个有差异的制作计划。

Conclusion #

OpenMontage 代表了 AI 视频制作的范式转变。它不是在模型层面上与 Sora 和 Runway 竞争,而是在制作编排层面运作——提供结构、质量关卡、研究能力和多供应商选择,将一个原始的视频生成 API 转变为完整的制作流程。

拥有12个管道、52种工具、500多项代理技能,以及开箱即用的零成本生产能力,它是目前最全面的开源视频制作系统。无论您是在制作教育讲解视频、纪录片剪辑、产品演示还是社交媒体短片,OpenMontage 都为您的 AI 编码助手提供了制作专业质量视频所需的一切。

对于自托管基础设施,可以考虑 DigitalOceanHTStack 提供可靠的支持 GPU 的主机服务。对于网页抓取和代理需求,WebShare.io 提供基础设施层。想要寻找 AI 工具和加密服务的优惠?请查看 Bitget Web3Crypto.com 获取独家优惠。对于联盟营销和漏斗工具,PromoOhLy 提供自动化服务。


来源: OpenMontage GitHub · 代理指南 · 提供者文档

加入社区: GitHub 讨论 · YouTube · X

📢 保持更新: 加入我们的 Telegram 群组,获取每日 AI 工具评测和新内容的抢先体验。

💬 留言讨论