Originals/ViGent2

Fork 0

Go to file

Kevin Wong 9af50a9066 更新

2026-02-03 17:15:35 +08:00

backend

更新

2026-02-03 17:12:30 +08:00

Docs

更新

2026-02-03 17:15:35 +08:00

frontend

更新

2026-02-03 17:12:30 +08:00

models

更新

2026-02-03 13:46:52 +08:00

remotion

更新代码

2026-02-02 10:51:27 +08:00

.gitignore

Init: 导入源码

2026-01-20 17:14:10 +08:00

README.md

更新

2026-02-03 17:15:35 +08:00

run_backend.sh

更新

2026-01-23 18:09:12 +08:00

run_latentsync.sh

更新

2026-01-23 18:09:12 +08:00

run_qwen_tts.sh

更新

2026-01-29 12:16:41 +08:00

run_watchdog.sh

更新

2026-02-03 13:46:52 +08:00

README.md

ViGent2 - 数字人口播视频生成系统

📹 上传人物 · 🎙️ 输入文案 · 🎬 一键成片

基于 LatentSync 1.6 + EdgeTTS 的开源数字人口播视频生成系统。集成 Qwen3-TTS 声音克隆与自动社交媒体发布功能。

功能特性 • 技术栈 • 文档中心 • 部署指南

✨ 功能特性

核心能力

🎬 高清唇形同步 - LatentSync 1.6 驱动，512×512 高分辨率 Latent Diffusion 模型。
🎙️ 多模态配音 - 支持 EdgeTTS (微软超自然语音) 和 Qwen3-TTS (3秒极速声音克隆)。
📝 智能字幕 - 集成 faster-whisper + Remotion，自动生成逐字高亮 (卡拉OK效果) 字幕。
🎨 样式预设 - 标题/字幕样式选择 + 预览 + 字号调节，支持自定义字体库。
🎵 背景音乐 - 试听 + 音量控制 + 混音，保持配音音量稳定。
🤖 AI 辅助创作 - 内置 GLM-4.7-Flash，支持 B站/抖音链接文案提取、AI 洗稿、标题/标签自动生成。

平台化功能

📱 全自动发布 - 支持 B站、抖音、小红书定时发布，扫码登录 + Cookie 持久化。
🔐 企业级认证 - 完善的用户隔离系统 (Supabase)，支持手机号注册/登录、密码管理。
🛡️ 服务守护 - 内置 Watchdog 看门狗机制，自动监控并重启僵死服务，确保 7x24h 稳定运行。
🚀 极致性能 - 视频预压缩、模型常驻服务 (0s加载)、双 GPU 流水线并发。

🛠️ 技术栈

领域	核心技术	说明
前端	Next.js 14	TypeScript, TailwindCSS, SWR
后端	FastAPI	Python 3.10, AsyncIO, PM2
数据库	Supabase	PostgreSQL, Storage (本地/S3), Auth
唇形同步	LatentSync 1.6	PyTorch 2.5, Diffusers, DeepCache
声音克隆	Qwen3-TTS	1.7B 参数量，Flash Attention 2 加速
自动化	Playwright	社交媒体无头浏览器自动化
部署	Docker & PM2	混合部署架构

📖 文档中心

我们提供了详尽的开发与部署文档：

部署运维

部署手册 (DEPLOY_MANUAL.md) - 👈 部署请看这里！包含完整的环境搭建步骤。
参考音频服务部署 (QWEN3_TTS_DEPLOY.md) - 声音克隆模型部署指南。
LatentSync 部署指南 - 唇形同步模型独立部署。
用户认证部署 (AUTH_DEPLOY.md) - Supabase 与 Auth 系统配置。

开发文档

后端开发指南 - 接口规范与开发流程。
前端开发指南 - UI 组件与页面规范。
开发日志 (DevLogs) - 每日开发进度与技术决策记录。

📂 项目结构

ViGent2/
├── backend/              # FastAPI 后端服务
│   ├── app/              # 核心业务逻辑
│   ├── scripts/          # 运维脚本 (Watchdog 等)
│   └── tests/            # 测试用例
├── frontend/             # Next.js 前端应用
├── models/               # AI 模型仓库
│   ├── LatentSync/       # 唇形同步服务
│   └── Qwen3-TTS/        # 声音克隆服务
└── Docs/                 # 项目文档

🌐 服务架构

系统采用微服务架构设计，各组件独立运行：

服务名称	端口	用途
Web UI	3002	用户访问入口 (Next.js)
Backend API	8006	核心业务接口 (FastAPI)
LatentSync	8007	唇形同步推理服务
Qwen3-TTS	8009	声音克隆推理服务
Supabase	8008	数据库与认证网关

⚖️ License

Releases 42

v4.0.0 Latest

2026-02-27 16:15:00 +08:00

Languages

Python 84.5%

TypeScript 12.9%

Shell 2.2%

PLpgSQL 0.2%

Dockerfile 0.1%

README.md Unescape Escape

ViGent2 - 数字人口播视频生成系统

✨ 功能特性

核心能力

平台化功能

🛠️ 技术栈

📖 文档中心

部署运维

开发文档

📂 项目结构

🌐 服务架构

⚖️ License

README.md