Pixelle-Video 评测：AI 全自动短视频生成引擎，输入主题自动生成完整视频

Pixelle-Video 是什么？

Pixelle-Video 是一款开源的 AI 全自动短视频生成引擎。只需输入一个主题，它就能自动完成整个视频制作流程：

✍️ AI 智能文案 — 根据主题自动生成解说词
🎨 AI 配图/视频 — 为每句话生成匹配的 AI 插图或动态视频
🗣️ AI 语音合成 — 将文案转换为自然语音解说
🎵 背景音乐 — 自动添加 BGM 增强氛围
🎬 一键合成视频 — 自动渲染最终视频

零门槛，零剪辑经验 — 视频创作变成一句话的事！

🔗 GitHub: https://github.com/AIDC-AI/Pixelle-Video

核心功能亮点

功能	说明
全自动生成	输入主题 → 获得完整视频
AI 智能文案	AI 自动写解说词，无需手动写脚本
AI 生成配图	每句话都配上精美的 AI 插图
AI 生成视频	支持 WAN 2.1 等视频模型创建动态内容
多 TTS 支持	Edge-TTS、Index-TTS 等众多语音合成方案
背景音乐	支持添加 BGM，让视频更有氛围
视觉模板	多种模板可选，打造独特视频风格
灵活尺寸	支持竖屏、横屏等多种视频尺寸
多种 AI 模型	GPT、通义千问、DeepSeek、Ollama 等
ComfyUI 架构	模块化设计，可自定义任意能力

视频生成流程

Pixelle-Video 采用模块化设计，整个视频生成流程清晰简洁：

文案生成 → 配图规划 → 逐帧处理 → 视频合成

每个环节都支持灵活定制，可选择不同的 AI 模型、音频引擎、视觉风格等，满足个性化创作需求。

扩展模块

除了基础视频生成，Pixelle-Video 还提供强大的扩展功能：

👤 数字人口播

上传照片，生成带口型同步的说话视频。支持韩语、中文、英语等多语言。

🖼️ 图生视频

将静态图片转换为动态视频，使用 AI 视频生成模型。

💃 动作迁移

上传参考视频和图片，将动作迁移到图片上 — 比如让照片里的人跟着视频跳舞。

支持的 AI 模型

LLM（文案生成）

OpenAI GPT-4o / GPT-4o-mini
阿里通义千问
DeepSeek V3 / R1
Ollama（本地部署）
自定义 API 端点

图像生成

FLUX（通过 ComfyUI）
Stable Diffusion
通义千问图像生成
RunningHub 云服务
Nano Banana 模型

TTS（语音合成）

Edge-TTS（免费，多语言）
Index-TTS（声音克隆）
ChatTTS
自定义 ComfyUI TTS 工作流

快速入门

1. 克隆仓库

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

2. 安装依赖

pip install -r requirements.txt

3. 配置 API 密钥

编辑 config.json 填入你的 API 密钥：

{
  "llm": {
    "api_key": "你的API密钥",
    "base_url": "https://api.openai.com/v1",
    "model": "gpt-4o"
  },
  "image": {
    "comfyui_url": "http://127.0.0.1:8188"
  }
}

4. 启动 Web 界面

python webui.py

浏览器打开 http://localhost:7860

5. 生成你的第一个视频

输入主题，如"为什么要养成阅读习惯"
选择喜欢的 TTS 音色
选择视觉模板
点击"生成视频"
等待 2-5 分钟获得完整视频

使用场景

场景	示例主题
知识分享	“Python 新手必知的 10 个技巧”
产品评测	“iPhone 16 vs 三星 S24 对比”
故事讲述	“一个创业者的旅程”
教育内容	“区块链是如何工作的？”
新闻评论	“2026 年 AI 发展趋势”
书评/影评	“《原子习惯》的启示”

视频风格示例

Pixelle-Video 支持多种视频风格：

🌄 人文纪实类 — 旅行、自然、人文故事
🔍 文化解构类 — 深度解读趋势和现象
🔭 科学思辨类 — 复杂概念简单讲
🌱 个人成长类 — 自我提升、效率提升
🧠 深度思考类 — 心理学、哲学、反思
🏯 历史文化类 — 古人智慧、历史事件
☀️ 情感类 — 暖心故事、励志内容
📜 小说解说类 — 小说评论、人物分析
🧬 知识科普类 — 医学常识、健康知识

技术架构

Pixelle-Video 基于 ComfyUI 架构构建：

模块化工作流 — 每个组件（LLM、TTS、图像生成）都是独立节点
可定制流水线 — 轻松替换任何模型或服务
API 优先设计 — 所有能力通过 REST API 暴露
Web 界面 — 基于 Gradio 的易用界面
批量处理 — 同时生成多个视频

性能与成本

方案	成本	速度	质量
本地部署	免费（需要 GPU）	快	高
RunningHub 云端	按量付费	即时	高
混合模式	灵活	均衡	高

新手推荐配置：

LLM: DeepSeek API（便宜，质量好）
图像: RunningHub（无需本地 GPU）
TTS: Edge-TTS（免费，多语言）

与其他工具对比

功能	Pixelle-Video	HeyGen	Synthesia	Pictory
开源	✅	❌	❌	❌
免费使用	✅	有限	有限	有限
本地部署	✅	❌	❌	❌
自定义模型	✅	❌	❌	❌
ComfyUI 集成	✅	❌	❌	❌
声音克隆	✅	✅	✅	❌
数字人	✅	✅	✅	❌
动作迁移	✅	❌	❌	❌

最佳实践技巧

主题具体化 — 越具体的主题，生成的脚本越好
模板匹配 — 根据内容风格选择合适的模板
提示词前缀 — 使用英文提示词前缀保持图像风格一致
语音预览 — 生成完整视频前先预览 TTS 效果
批量生成 — 同时生成 3-5 个版本，挑选最好的

Free Claude Code：让 Claude Code CLI 免费使用的开源代理工具 — 免费 AI 编程助手
Agent Reach：让你的 AI Agent 一键连接互联网 — AI 智能体联网工具
Code Vault — 7 个开源的加密雷达与交易工具合集 — Python 自动化工具

总结

Pixelle-Video 将 LLM、图像生成、TTS 和视频剪辑整合为单一自动化流水线，让视频创作民主化。无论你是内容创作者、教育工作者、营销人员还是开发者，这款工具都能节省大量视频制作时间。

基于 ComfyUI 的架构意味着它不只是黑盒工具 — 你可以自定义每个组件、替换模型、构建自己的视频生成工作流。

最适合：需要快速视频制作的内容创作者、教育工作者、营销人员、开发者

GitHub: https://github.com/AIDC-AI/Pixelle-Video

最后更新：2026-05-06

Pixelle-Video 是什么？#

核心功能亮点#

视频生成流程#

扩展模块#

👤 数字人口播#

🖼️ 图生视频#

💃 动作迁移#

支持的 AI 模型#

LLM（文案生成）#

图像生成#

TTS（语音合成）#

快速入门#

1. 克隆仓库#

2. 安装依赖#

3. 配置 API 密钥#

4. 启动 Web 界面#

5. 生成你的第一个视频#

使用场景#

视频风格示例#

技术架构#

性能与成本#

与其他工具对比#

最佳实践技巧#

相关文章#

总结#

分享这篇文章