Files
ViGent2/README.md
Kevin Wong 96a298e51c 更新
2026-02-11 13:48:45 +08:00

5.2 KiB
Raw Blame History

ViGent2 - 数字人口播视频生成系统

📹 上传人物 · 🎙️ 输入文案 · 🎬 一键成片

基于 LatentSync 1.6 + EdgeTTS 的开源数字人口播视频生成系统。 集成 CosyVoice 3.0 声音克隆与自动社交媒体发布功能。

功能特性技术栈文档中心部署指南


功能特性

核心能力

  • 🎬 高清唇形同步 - LatentSync 1.6 驱动512×512 高分辨率 Latent Diffusion 模型。
  • 🎙️ 多模态配音 - 支持 EdgeTTS (微软超自然语音, 10 语言) 和 CosyVoice 3.0 (3秒极速声音克隆, 9语言+18方言, 语速可调)。上传参考音频自动 Whisper 转写 + 智能截取。配音前置工作流:先生成配音 → 选素材 → 生成视频。
  • 📝 智能字幕 - 集成 faster-whisper + Remotion自动生成逐字高亮 (卡拉OK效果) 字幕。
  • 🎨 样式预设 - 标题/字幕样式选择 + 预览 + 字号调节,支持自定义字体库。
  • 🖼️ 作品预览一致性 - 标题/字幕预览按素材分辨率缩放,效果更接近成片。
  • 🎞️ 多素材多机位 - 支持多选素材 + 时间轴编辑器 (wavesurfer.js 波形可视化),拖拽分割线调整时长、拖拽排序切换机位、截取源视频片段。
  • 💾 用户偏好持久化 - 首页状态统一恢复/保存,刷新后延续上次配置。历史文案手动保存与加载。
  • 🎵 背景音乐 - 试听 + 音量控制 + 混音,保持配音音量稳定。
  • 🤖 AI 辅助创作 - 内置 GLM-4.7-Flash支持 B站/抖音链接文案提取、AI 洗稿、标题/标签自动生成、9 语言翻译。

平台化功能

  • 📱 全自动发布 - 支持抖音/微信视频号/B站/小红书立即发布;扫码登录 + Cookie 持久化。
  • 🖥️ 发布管理预览 - 支持签名 URL / 相对路径作品预览,确保可直接播放。
  • 📸 发布结果可视化 - 抖音/微信视频号发布成功后返回截图,发布页结果卡片可直接查看。
  • 🛡️ 发布防误操作 - 发布进行中自动提示“请勿刷新或关闭网页”,并拦截刷新/关页二次确认。
  • 🔐 认证与隔离 - 基于 Supabase 的用户隔离,支持手机号注册/登录、密码管理。
  • 🛡️ 服务守护 - 内置 Watchdog 看门狗机制,自动监控并重启僵死服务,确保 7x24h 稳定运行。
  • 🚀 性能优化 - 视频预压缩、模型常驻服务(近实时加载)、双 GPU 流水线并发。

🛠️ 技术栈

领域 核心技术 说明
前端 Next.js 16 TypeScript, TailwindCSS, SWR, wavesurfer.js
后端 FastAPI Python 3.10, AsyncIO, PM2
数据库 Supabase PostgreSQL, Storage (本地/S3), Auth
唇形同步 LatentSync 1.6 PyTorch 2.5, Diffusers, DeepCache
声音克隆 CosyVoice 3.0 0.5B 参数量9 语言 + 18 方言
自动化 Playwright 社交媒体无头浏览器自动化
部署 Docker & PM2 混合部署架构

📖 文档中心

我们提供了详尽的开发与部署文档:

部署运维

开发文档


📂 项目结构

ViGent2/
├── backend/              # FastAPI 后端服务
│   ├── app/              # 核心业务逻辑
│   ├── assets/           # 字体 / 样式 / BGM
│   ├── user_data/        # 用户隔离数据 (Cookie 等)
│   └── scripts/          # 运维脚本 (Watchdog 等)
├── frontend/             # Next.js 前端应用
├── remotion/             # Remotion 视频渲染 (标题/字幕合成)
├── models/               # AI 模型仓库
│   ├── LatentSync/       # 唇形同步服务
│   └── CosyVoice/       # 声音克隆服务
└── Docs/                 # 项目文档

🌐 服务架构

系统采用微服务架构设计,各组件独立运行:

服务名称 端口 用途
Web UI 3002 用户访问入口 (Next.js)
Backend API 8006 核心业务接口 (FastAPI)
LatentSync 8007 唇形同步推理服务
CosyVoice 3.0 8010 声音克隆推理服务
Supabase 8008 数据库与认证网关

⚖️ License

MIT License © 2026 ViGent Team