Kevin Wong 33d8e52802 更新
2026-02-03 17:42:04 +08:00
2026-02-03 17:12:30 +08:00
2026-02-03 17:15:35 +08:00
2026-02-03 17:42:04 +08:00
2026-02-03 13:46:52 +08:00
2026-02-02 10:51:27 +08:00
2026-01-20 17:14:10 +08:00
2026-02-03 17:15:35 +08:00
2026-01-23 18:09:12 +08:00
2026-01-23 18:09:12 +08:00
2026-01-29 12:16:41 +08:00
2026-02-03 13:46:52 +08:00

ViGent2 - 数字人口播视频生成系统

📹 上传人物 · 🎙️ 输入文案 · 🎬 一键成片

基于 LatentSync 1.6 + EdgeTTS 的开源数字人口播视频生成系统。 集成 Qwen3-TTS 声音克隆与自动社交媒体发布功能。

功能特性技术栈文档中心部署指南


功能特性

核心能力

  • 🎬 高清唇形同步 - LatentSync 1.6 驱动512×512 高分辨率 Latent Diffusion 模型。
  • 🎙️ 多模态配音 - 支持 EdgeTTS (微软超自然语音) 和 Qwen3-TTS (3秒极速声音克隆)。
  • 📝 智能字幕 - 集成 faster-whisper + Remotion自动生成逐字高亮 (卡拉OK效果) 字幕。
  • 🎨 样式预设 - 标题/字幕样式选择 + 预览 + 字号调节,支持自定义字体库。
  • 🎵 背景音乐 - 试听 + 音量控制 + 混音,保持配音音量稳定。
  • 🤖 AI 辅助创作 - 内置 GLM-4.7-Flash支持 B站/抖音链接文案提取、AI 洗稿、标题/标签自动生成。

平台化功能

  • 📱 全自动发布 - 支持 B站、抖音、小红书定时发布扫码登录 + Cookie 持久化。
  • 🔐 企业级认证 - 完善的用户隔离系统 (Supabase),支持手机号注册/登录、密码管理。
  • 🛡️ 服务守护 - 内置 Watchdog 看门狗机制,自动监控并重启僵死服务,确保 7x24h 稳定运行。
  • 🚀 极致性能 - 视频预压缩、模型常驻服务 (0s加载)、双 GPU 流水线并发。

🛠️ 技术栈

领域 核心技术 说明
前端 Next.js 14 TypeScript, TailwindCSS, SWR
后端 FastAPI Python 3.10, AsyncIO, PM2
数据库 Supabase PostgreSQL, Storage (本地/S3), Auth
唇形同步 LatentSync 1.6 PyTorch 2.5, Diffusers, DeepCache
声音克隆 Qwen3-TTS 1.7B 参数量Flash Attention 2 加速
自动化 Playwright 社交媒体无头浏览器自动化
部署 Docker & PM2 混合部署架构

📖 文档中心

我们提供了详尽的开发与部署文档:

部署运维

开发文档


📂 项目结构

ViGent2/
├── backend/              # FastAPI 后端服务
│   ├── app/              # 核心业务逻辑
│   ├── scripts/          # 运维脚本 (Watchdog 等)
│   └── tests/            # 测试用例
├── frontend/             # Next.js 前端应用
├── models/               # AI 模型仓库
│   ├── LatentSync/       # 唇形同步服务
│   └── Qwen3-TTS/        # 声音克隆服务
└── Docs/                 # 项目文档

🌐 服务架构

系统采用微服务架构设计,各组件独立运行:

服务名称 端口 用途
Web UI 3002 用户访问入口 (Next.js)
Backend API 8006 核心业务接口 (FastAPI)
LatentSync 8007 唇形同步推理服务
Qwen3-TTS 8009 声音克隆推理服务
Supabase 8008 数据库与认证网关

⚖️ License

MIT License © 2026 ViGent Team

Description
No description provided
Readme 7.1 MiB
v4.0.0 Latest
2026-02-27 16:15:00 +08:00
Languages
Python 84.5%
TypeScript 12.9%
Shell 2.2%
PLpgSQL 0.2%
Dockerfile 0.1%