Pixelle-Video 是什么?

Pixelle-Video 是一款开源的 AI 全自动短视频生成引擎。只需输入一个主题,它就能自动完成整个视频制作流程:

  • ✍️ AI 智能文案 — 根据主题自动生成解说词
  • 🎨 AI 配图/视频 — 为每句话生成匹配的 AI 插图或动态视频
  • 🗣️ AI 语音合成 — 将文案转换为自然语音解说
  • 🎵 背景音乐 — 自动添加 BGM 增强氛围
  • 🎬 一键合成视频 — 自动渲染最终视频

零门槛,零剪辑经验 — 视频创作变成一句话的事!

🔗 GitHub: https://github.com/AIDC-AI/Pixelle-Video


核心功能亮点

功能说明
全自动生成输入主题 → 获得完整视频
AI 智能文案AI 自动写解说词,无需手动写脚本
AI 生成配图每句话都配上精美的 AI 插图
AI 生成视频支持 WAN 2.1 等视频模型创建动态内容
多 TTS 支持Edge-TTS、Index-TTS 等众多语音合成方案
背景音乐支持添加 BGM,让视频更有氛围
视觉模板多种模板可选,打造独特视频风格
灵活尺寸支持竖屏、横屏等多种视频尺寸
多种 AI 模型GPT、通义千问、DeepSeek、Ollama 等
ComfyUI 架构模块化设计,可自定义任意能力

视频生成流程

Pixelle-Video 采用模块化设计,整个视频生成流程清晰简洁:

文案生成 → 配图规划 → 逐帧处理 → 视频合成

每个环节都支持灵活定制,可选择不同的 AI 模型、音频引擎、视觉风格等,满足个性化创作需求。


扩展模块

除了基础视频生成,Pixelle-Video 还提供强大的扩展功能:

👤 数字人口播

上传照片,生成带口型同步的说话视频。支持韩语、中文、英语等多语言。

🖼️ 图生视频

将静态图片转换为动态视频,使用 AI 视频生成模型。

💃 动作迁移

上传参考视频和图片,将动作迁移到图片上 — 比如让照片里的人跟着视频跳舞。


支持的 AI 模型

LLM(文案生成)

  • OpenAI GPT-4o / GPT-4o-mini
  • 阿里通义千问
  • DeepSeek V3 / R1
  • Ollama(本地部署)
  • 自定义 API 端点

图像生成

  • FLUX(通过 ComfyUI)
  • Stable Diffusion
  • 通义千问图像生成
  • RunningHub 云服务
  • Nano Banana 模型

TTS(语音合成)

  • Edge-TTS(免费,多语言)
  • Index-TTS(声音克隆)
  • ChatTTS
  • 自定义 ComfyUI TTS 工作流

快速入门

1. 克隆仓库

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

2. 安装依赖

pip install -r requirements.txt

3. 配置 API 密钥

编辑 config.json 填入你的 API 密钥:

{
  "llm": {
    "api_key": "你的API密钥",
    "base_url": "https://api.openai.com/v1",
    "model": "gpt-4o"
  },
  "image": {
    "comfyui_url": "http://127.0.0.1:8188"
  }
}

4. 启动 Web 界面

python webui.py

浏览器打开 http://localhost:7860

5. 生成你的第一个视频

  1. 输入主题,如"为什么要养成阅读习惯"
  2. 选择喜欢的 TTS 音色
  3. 选择视觉模板
  4. 点击"生成视频"
  5. 等待 2-5 分钟获得完整视频

使用场景

场景示例主题
知识分享“Python 新手必知的 10 个技巧”
产品评测“iPhone 16 vs 三星 S24 对比”
故事讲述“一个创业者的旅程”
教育内容“区块链是如何工作的?”
新闻评论“2026 年 AI 发展趋势”
书评/影评“《原子习惯》的启示”

视频风格示例

Pixelle-Video 支持多种视频风格:

  • 🌄 人文纪实类 — 旅行、自然、人文故事
  • 🔍 文化解构类 — 深度解读趋势和现象
  • 🔭 科学思辨类 — 复杂概念简单讲
  • 🌱 个人成长类 — 自我提升、效率提升
  • 🧠 深度思考类 — 心理学、哲学、反思
  • 🏯 历史文化类 — 古人智慧、历史事件
  • ☀️ 情感类 — 暖心故事、励志内容
  • 📜 小说解说类 — 小说评论、人物分析
  • 🧬 知识科普类 — 医学常识、健康知识

技术架构

Pixelle-Video 基于 ComfyUI 架构构建:

  • 模块化工作流 — 每个组件(LLM、TTS、图像生成)都是独立节点
  • 可定制流水线 — 轻松替换任何模型或服务
  • API 优先设计 — 所有能力通过 REST API 暴露
  • Web 界面 — 基于 Gradio 的易用界面
  • 批量处理 — 同时生成多个视频

性能与成本

方案成本速度质量
本地部署免费(需要 GPU)
RunningHub 云端按量付费即时
混合模式灵活均衡

新手推荐配置:

  • LLM: DeepSeek API(便宜,质量好)
  • 图像: RunningHub(无需本地 GPU)
  • TTS: Edge-TTS(免费,多语言)

与其他工具对比

功能Pixelle-VideoHeyGenSynthesiaPictory
开源
免费使用有限有限有限
本地部署
自定义模型
ComfyUI 集成
声音克隆
数字人
动作迁移

最佳实践技巧

  1. 主题具体化 — 越具体的主题,生成的脚本越好
  2. 模板匹配 — 根据内容风格选择合适的模板
  3. 提示词前缀 — 使用英文提示词前缀保持图像风格一致
  4. 语音预览 — 生成完整视频前先预览 TTS 效果
  5. 批量生成 — 同时生成 3-5 个版本,挑选最好的

相关文章


总结

Pixelle-Video 将 LLM、图像生成、TTS 和视频剪辑整合为单一自动化流水线,让视频创作民主化。无论你是内容创作者、教育工作者、营销人员还是开发者,这款工具都能节省大量视频制作时间。

基于 ComfyUI 的架构意味着它不只是黑盒工具 — 你可以自定义每个组件、替换模型、构建自己的视频生成工作流。

最适合:需要快速视频制作的内容创作者、教育工作者、营销人员、开发者

GitHub: https://github.com/AIDC-AI/Pixelle-Video


最后更新:2026-05-06