Kevin Wong 31469ca01d 更新
2026-02-04 16:56:16 +08:00
2026-02-04 16:54:59 +08:00
2026-02-04 16:56:16 +08:00
2026-02-04 16:54:59 +08:00
2026-02-03 13:46:52 +08:00
2026-02-02 10:51:27 +08:00
2026-01-20 17:14:10 +08:00
2026-02-04 15:59:45 +08:00
2026-01-23 18:09:12 +08:00
2026-01-23 18:09:12 +08:00
2026-01-29 12:16:41 +08:00
2026-02-03 13:46:52 +08:00

ViGent2 - 数字人口播视频生成系统

📹 上传人物 · 🎙️ 输入文案 · 🎬 一键成片

基于 LatentSync 1.6 + EdgeTTS 的开源数字人口播视频生成系统。 集成 Qwen3-TTS 声音克隆与自动社交媒体发布功能。

功能特性技术栈文档中心部署指南


功能特性

核心能力

  • 🎬 高清唇形同步 - LatentSync 1.6 驱动512×512 高分辨率 Latent Diffusion 模型。
  • 🎙️ 多模态配音 - 支持 EdgeTTS (微软超自然语音) 和 Qwen3-TTS (3秒极速声音克隆)。
  • 📝 智能字幕 - 集成 faster-whisper + Remotion自动生成逐字高亮 (卡拉OK效果) 字幕。
  • 🎨 样式预设 - 标题/字幕样式选择 + 预览 + 字号调节,支持自定义字体库。
  • 🖼️ 作品预览一致性 - 标题/字幕预览按素材分辨率缩放,效果更接近成片。
  • 💾 用户偏好持久化 - 首页状态统一恢复/保存,刷新后延续上次配置。
  • 🎵 背景音乐 - 试听 + 音量控制 + 混音,保持配音音量稳定。
  • 🤖 AI 辅助创作 - 内置 GLM-4.7-Flash支持 B站/抖音链接文案提取、AI 洗稿、标题/标签自动生成。

平台化功能

  • 📱 全自动发布 - 支持 B站、抖音、小红书定时发布扫码登录 + Cookie 持久化。
  • 🖥️ 发布管理预览 - 支持签名 URL / 相对路径作品预览,确保可直接播放。
  • 🔐 认证与隔离 - 基于 Supabase 的用户隔离,支持手机号注册/登录、密码管理。
  • 🛡️ 服务守护 - 内置 Watchdog 看门狗机制,自动监控并重启僵死服务,确保 7x24h 稳定运行。
  • 🚀 性能优化 - 视频预压缩、模型常驻服务(近实时加载)、双 GPU 流水线并发。

🛠️ 技术栈

领域 核心技术 说明
前端 Next.js 16 TypeScript, TailwindCSS, SWR
后端 FastAPI Python 3.10, AsyncIO, PM2
数据库 Supabase PostgreSQL, Storage (本地/S3), Auth
唇形同步 LatentSync 1.6 PyTorch 2.5, Diffusers, DeepCache
声音克隆 Qwen3-TTS 1.7B 参数量Flash Attention 2 加速
自动化 Playwright 社交媒体无头浏览器自动化
部署 Docker & PM2 混合部署架构

📖 文档中心

我们提供了详尽的开发与部署文档:

部署运维

开发文档


📂 项目结构

ViGent2/
├── backend/              # FastAPI 后端服务
│   ├── app/              # 核心业务逻辑
│   ├── scripts/          # 运维脚本 (Watchdog 等)
│   └── tests/            # 测试用例
├── frontend/             # Next.js 前端应用
├── models/               # AI 模型仓库
│   ├── LatentSync/       # 唇形同步服务
│   └── Qwen3-TTS/        # 声音克隆服务
└── Docs/                 # 项目文档

🌐 服务架构

系统采用微服务架构设计,各组件独立运行:

服务名称 端口 用途
Web UI 3002 用户访问入口 (Next.js)
Backend API 8006 核心业务接口 (FastAPI)
LatentSync 8007 唇形同步推理服务
Qwen3-TTS 8009 声音克隆推理服务
Supabase 8008 数据库与认证网关

⚖️ License

MIT License © 2026 ViGent Team

Description
No description provided
Readme 7.1 MiB
v4.0.0 Latest
2026-02-27 16:15:00 +08:00
Languages
Python 84.5%
TypeScript 12.9%
Shell 2.2%
PLpgSQL 0.2%
Dockerfile 0.1%