v2.0.0
ViGent2 - 数字人口播视频生成系统
📹 上传人物 · 🎙️ 输入文案 · 🎬 一键成片
基于 LatentSync 1.6 + EdgeTTS 的开源数字人口播视频生成系统。 集成 Qwen3-TTS 声音克隆与自动社交媒体发布功能。
✨ 功能特性
核心能力
- 🎬 高清唇形同步 - LatentSync 1.6 驱动,512×512 高分辨率 Latent Diffusion 模型。
- 🎙️ 多模态配音 - 支持 EdgeTTS (微软超自然语音) 和 Qwen3-TTS (3秒极速声音克隆)。
- 📝 智能字幕 - 集成 faster-whisper + Remotion,自动生成逐字高亮 (卡拉OK效果) 字幕。
- 🎨 样式预设 - 标题/字幕样式选择 + 预览 + 字号调节,支持自定义字体库。
- 🎵 背景音乐 - 试听 + 音量控制 + 混音,保持配音音量稳定。
- 🤖 AI 辅助创作 - 内置 GLM-4.7-Flash,支持 B站/抖音链接文案提取、AI 洗稿、标题/标签自动生成。
平台化功能
- 📱 全自动发布 - 支持 B站、抖音、小红书定时发布,扫码登录 + Cookie 持久化。
- 🔐 企业级认证 - 完善的用户隔离系统 (Supabase),支持手机号注册/登录、密码管理。
- 🛡️ 服务守护 - 内置 Watchdog 看门狗机制,自动监控并重启僵死服务,确保 7x24h 稳定运行。
- 🚀 极致性能 - 视频预压缩、模型常驻服务 (0s加载)、双 GPU 流水线并发。
🛠️ 技术栈
| 领域 | 核心技术 | 说明 |
|---|---|---|
| 前端 | Next.js 14 | TypeScript, TailwindCSS, SWR |
| 后端 | FastAPI | Python 3.10, AsyncIO, PM2 |
| 数据库 | Supabase | PostgreSQL, Storage (本地/S3), Auth |
| 唇形同步 | LatentSync 1.6 | PyTorch 2.5, Diffusers, DeepCache |
| 声音克隆 | Qwen3-TTS | 1.7B 参数量,Flash Attention 2 加速 |
| 自动化 | Playwright | 社交媒体无头浏览器自动化 |
| 部署 | Docker & PM2 | 混合部署架构 |
📖 文档中心
我们提供了详尽的开发与部署文档:
部署运维
- 部署手册 (DEPLOY_MANUAL.md) - 👈 部署请看这里!包含完整的环境搭建步骤。
- 参考音频服务部署 (QWEN3_TTS_DEPLOY.md) - 声音克隆模型部署指南。
- LatentSync 部署指南 - 唇形同步模型独立部署。
- 用户认证部署 (AUTH_DEPLOY.md) - Supabase 与 Auth 系统配置。
开发文档
- 后端开发指南 - 接口规范与开发流程。
- 前端开发指南 - UI 组件与页面规范。
- 开发日志 (DevLogs) - 每日开发进度与技术决策记录。
📂 项目结构
ViGent2/
├── backend/ # FastAPI 后端服务
│ ├── app/ # 核心业务逻辑
│ ├── scripts/ # 运维脚本 (Watchdog 等)
│ └── tests/ # 测试用例
├── frontend/ # Next.js 前端应用
├── models/ # AI 模型仓库
│ ├── LatentSync/ # 唇形同步服务
│ └── Qwen3-TTS/ # 声音克隆服务
└── Docs/ # 项目文档
🌐 服务架构
系统采用微服务架构设计,各组件独立运行:
| 服务名称 | 端口 | 用途 |
|---|---|---|
| Web UI | 3002 | 用户访问入口 (Next.js) |
| Backend API | 8006 | 核心业务接口 (FastAPI) |
| LatentSync | 8007 | 唇形同步推理服务 |
| Qwen3-TTS | 8009 | 声音克隆推理服务 |
| Supabase | 8008 | 数据库与认证网关 |
⚖️ License
MIT License © 2026 ViGent Team
Description