71b45852bf85ed121c4cb4faee7abe03e50f6308
ViGent2 - 数字人口播视频生成系统
📹 上传人物 · 🎙️ 输入文案 · 🎬 一键成片
基于 LatentSync 1.6 + MuseTalk 1.5 混合唇形同步 的开源数字人口播视频生成系统。 集成 CosyVoice 3.0 声音克隆与自动社交媒体发布功能。
✨ 功能特性
核心能力
- 🎬 高清唇形同步 - 混合方案:短视频(本仓库当前
.env阈值 100s,可配)用 LatentSync 1.6(高质量 Latent Diffusion),长视频用 MuseTalk 1.5(实时级单步推理),自动路由 + 回退。前端可选模型:默认模型(阈值自动路由)/ 快速模型(速度优先)/ 高级模型(质量优先)。 - 🎙️ 多模态配音 - 支持 EdgeTTS (微软超自然语音, 10 语言) 和 CosyVoice 3.0 (3秒极速声音克隆, 9语言+18方言, 语速/语气可调)。上传参考音频自动 Whisper 转写 + 智能截取。配音前置工作流:先生成配音 → 选素材 → 生成视频。
- 📝 智能字幕 - 集成 faster-whisper + Remotion,自动生成逐字高亮 (卡拉OK效果) 字幕。
- 🎨 样式预设 - 12 种标题 + 8 种字幕样式预设,支持预览 + 字号调节 + 自定义字体库。CSS 原生描边渲染,清晰无重影。
- 🏷️ 标题显示模式 - 片头标题支持
短暂显示/常驻显示,默认短暂显示(4秒),用户偏好自动持久化。 - 📌 片头副标题 - 可选副标题显示在主标题下方,独立样式配置,AI 可同时生成,20 字限制。
- 🖼️ 作品预览一致性 - 标题/字幕预览与 Remotion 成片统一响应式缩放和自动换行,窄屏画布也稳定显示。
- 🎞️ 多素材多机位 - 支持多选素材 + 时间轴编辑器 (wavesurfer.js 波形可视化),拖拽分割线调整时长、拖拽排序切换机位、按
source_start/source_end截取片段。 - 📐 画面比例控制 - 时间轴一键切换
9:16 / 16:9输出比例,生成链路全程按目标比例处理。 - 💾 用户偏好持久化 - 首页状态统一恢复/保存,刷新后延续上次配置;新作品生成后优先选中最新,后续用户手动选择持续持久化。
- 🎵 背景音乐 - 试听 + 搜索选择 + 混音(当前前端固定混音系数,保持配音音量稳定)。
- 🧩 统一选择器交互 - 首页/发布页业务选择项统一 SelectPopover(桌面 Popover / 移动端 BottomSheet),支持自动上拉、已选定位与连续预览。
- 🤖 AI 辅助创作 - 内置 GLM-4.7-Flash,支持 B站/抖音链接文案提取、AI 智能改写(支持自定义提示词)、标题/标签自动生成、9 语言翻译。
平台化功能
- 📱 全自动发布 - 支持抖音/微信视频号/B站/小红书立即发布;扫码登录 + Cookie 持久化。
- 🖥️ 发布管理预览 - 支持签名 URL / 相对路径作品预览,确保可直接播放。
- 📸 发布结果可视化 - 抖音/微信视频号/小红书发布成功后返回截图,发布页结果卡片可直接查看。
- 🧹 发布后工作区清理引导 - 全平台发布成功后弹出不可误关清理弹窗(失败可重试,达到阈值可暂不清理),仅清输入内容并保留用户偏好。
- ⬇️ 一键下载直达 - 首页与发布成功弹窗下载统一走同源
attachment接口,不再新开标签页播放视频。 - 🛡️ 发布防误操作 - 发布进行中自动提示“请勿刷新或关闭网页”,并拦截刷新/关页二次确认。
- 💳 付费会员 - 支付宝电脑网站支付自动开通会员,到期自动停用并引导续费,管理员手动激活并存。
- 🔐 认证与隔离 - 基于 Supabase 的用户隔离,支持手机号注册/登录、密码管理。
- 🛡️ 安全基线 - AI/Tools 接口强制登录鉴权、关键上传链路体积限制、生产环境默认密钥启动拦截。
- 🛡️ 服务守护 - 内置 Watchdog 看门狗机制,自动监控并重启僵死服务,确保 7x24h 稳定运行。
- 🚀 性能优化 - 编码流水线从 5-6 次有损编码精简至 3 次(prepare_segment → 模型输出 → Remotion)、compose 流复制免重编码、同分辨率跳过 scale、FFmpeg 超时保护、全局视频生成并发限制 (Semaphore(2))、Remotion 4 并发渲染、MuseTalk rawvideo 管道直编码(消除中间有损文件)、模型常驻服务、双 GPU 流水线并发、Redis 任务 TTL 自动清理、workflow 阻塞调用线程池化。
🛠️ 技术栈
| 领域 | 核心技术 | 说明 |
|---|---|---|
| 前端 | Next.js 16 | TypeScript, TailwindCSS, SWR, wavesurfer.js |
| 后端 | FastAPI | Python 3.12, AsyncIO, PM2 |
| 数据库 | Supabase | PostgreSQL, Storage (本地/S3), Auth |
| 唇形同步 | LatentSync 1.6 + MuseTalk 1.5 | 混合路由:短视频 Diffusion 高质量,长视频单步实时推理 |
| 声音克隆 | CosyVoice 3.0 | 0.5B 参数量,9 语言 + 18 方言 |
| 自动化 | Playwright | 社交媒体无头浏览器自动化 |
| 部署 | Docker & PM2 | 混合部署架构 |
📖 文档中心
我们提供了详尽的开发与部署文档:
部署运维
- 部署手册 (DEPLOY_MANUAL.md) - 👈 部署请看这里!包含完整的环境搭建步骤。
- 多平台发布部署说明 (PUBLISH_DEPLOY.md) - 抖音/微信视频号/B站/小红书登录与自动化发布专项文档。
- 参考音频服务部署 (COSYVOICE3_DEPLOY.md) - 声音克隆模型部署指南。
- LatentSync 部署指南 (LATENTSYNC_DEPLOY.md) - 唇形同步模型独立部署。
- MuseTalk 部署指南 (MUSETALK_DEPLOY.md) - 长视频唇形同步模型部署。
- Supabase 部署指南 (SUPABASE_DEPLOY.md) - Supabase 与认证系统配置。
- 支付宝部署指南 (ALIPAY_DEPLOY.md) - 支付宝付费开通会员配置。
开发文档
- 后端开发指南 (BACKEND_README.md) - 接口规范与开发流程。
- 后端开发规范 (BACKEND_DEV.md) - 分层约定与开发习惯。
- 前端开发指南 (FRONTEND_DEV.md) - UI 组件与页面规范。
- 前端组件文档 (FRONTEND_README.md) - 组件结构与板块说明。
- Remotion 字幕部署 (SUBTITLE_DEPLOY.md) - 字幕渲染服务部署。
- 开发日志 (DevLogs) - 每日开发进度与技术决策记录。
📂 项目结构
ViGent2/
├── backend/ # FastAPI 后端服务
│ ├── app/ # 核心业务逻辑
│ ├── assets/ # 字体 / 样式 / BGM
│ ├── user_data/ # 用户隔离数据 (Cookie 等)
│ └── scripts/ # 运维脚本 (Watchdog 等)
├── frontend/ # Next.js 前端应用
├── remotion/ # Remotion 视频渲染 (标题/字幕合成)
├── models/ # AI 模型仓库
│ ├── LatentSync/ # 唇形同步服务 (GPU1, 短视频)
│ ├── MuseTalk/ # 唇形同步服务 (GPU0, 长视频)
│ └── CosyVoice/ # 声音克隆服务
└── Docs/ # 项目文档
🌐 服务架构
系统采用微服务架构设计,各组件独立运行:
| 服务名称 | 端口 | 用途 |
|---|---|---|
| Web UI | 3002 | 用户访问入口 (Next.js) |
| Backend API | 8006 | 核心业务接口 (FastAPI) |
| LatentSync | 8007 | 唇形同步推理服务 (GPU1, 短视频) |
| MuseTalk | 8011 | 唇形同步推理服务 (GPU0, 长视频) |
| CosyVoice 3.0 | 8010 | 声音克隆推理服务 |
| Supabase | 8008 | 数据库与认证网关 |
⚖️ License
MIT License © 2026 ViGent Team
Description