# ViGent2 - 数字人口播视频生成系统
> 📹 **上传人物** · 🎙️ **输入文案** · 🎬 **一键成片** 基于 **LatentSync 1.6 + EdgeTTS** 的开源数字人口播视频生成系统。 集成 **CosyVoice 3.0** 声音克隆与自动社交媒体发布功能。 [功能特性](#-功能特性) • [技术栈](#-技术栈) • [文档中心](#-文档中心) • [部署指南](Docs/DEPLOY_MANUAL.md)
--- ## ✨ 功能特性 ### 核心能力 - 🎬 **高清唇形同步** - LatentSync 1.6 驱动,512×512 高分辨率 Latent Diffusion 模型。 - 🎙️ **多模态配音** - 支持 **EdgeTTS** (微软超自然语音, 10 语言) 和 **CosyVoice 3.0** (3秒极速声音克隆, 9语言+18方言, 语速可调)。上传参考音频自动 Whisper 转写 + 智能截取。配音前置工作流:先生成配音 → 选素材 → 生成视频。 - 📝 **智能字幕** - 集成 faster-whisper + Remotion,自动生成逐字高亮 (卡拉OK效果) 字幕。 - 🎨 **样式预设** - 12 种标题 + 8 种字幕样式预设,支持预览 + 字号调节 + 自定义字体库。CSS 原生描边渲染,清晰无重影。 - 🏷️ **标题显示模式** - 片头标题支持 `短暂显示` / `常驻显示`,默认短暂显示(4秒),用户偏好自动持久化。 - 📌 **片头副标题** - 可选副标题显示在主标题下方,独立样式配置,AI 可同时生成,20 字限制。 - 🖼️ **作品预览一致性** - 标题/字幕预览与 Remotion 成片统一响应式缩放和自动换行,窄屏画布也稳定显示。 - 🎞️ **多素材多机位** - 支持多选素材 + 时间轴编辑器 (wavesurfer.js 波形可视化),拖拽分割线调整时长、拖拽排序切换机位、按 `source_start/source_end` 截取片段。 - 📐 **画面比例控制** - 时间轴一键切换 `9:16 / 16:9` 输出比例,生成链路全程按目标比例处理。 - 💾 **用户偏好持久化** - 首页状态统一恢复/保存,刷新后延续上次配置。历史文案手动保存与加载。 - 🎵 **背景音乐** - 试听 + 音量控制 + 混音,保持配音音量稳定。 - 🤖 **AI 辅助创作** - 内置 GLM-4.7-Flash,支持 B站/抖音链接文案提取、AI 智能改写(支持自定义提示词)、标题/标签自动生成、9 语言翻译。 ### 平台化功能 - 📱 **全自动发布** - 支持抖音/微信视频号/B站/小红书立即发布;扫码登录 + Cookie 持久化。 - 🖥️ **发布管理预览** - 支持签名 URL / 相对路径作品预览,确保可直接播放。 - 📸 **发布结果可视化** - 抖音/微信视频号发布成功后返回截图,发布页结果卡片可直接查看。 - 🛡️ **发布防误操作** - 发布进行中自动提示“请勿刷新或关闭网页”,并拦截刷新/关页二次确认。 - 💳 **付费会员** - 支付宝电脑网站支付自动开通会员,到期自动停用并引导续费,管理员手动激活并存。 - 🔐 **认证与隔离** - 基于 Supabase 的用户隔离,支持手机号注册/登录、密码管理。 - 🛡️ **服务守护** - 内置 Watchdog 看门狗机制,自动监控并重启僵死服务,确保 7x24h 稳定运行。 - 🚀 **性能优化** - 视频预压缩、模型常驻服务(近实时加载)、双 GPU 流水线并发。 --- ## 🛠️ 技术栈 | 领域 | 核心技术 | 说明 | |------|----------|------| | **前端** | Next.js 16 | TypeScript, TailwindCSS, SWR, wavesurfer.js | | **后端** | FastAPI | Python 3.12, AsyncIO, PM2 | | **数据库** | Supabase | PostgreSQL, Storage (本地/S3), Auth | | **唇形同步** | LatentSync 1.6 | PyTorch 2.5, Diffusers, DeepCache | | **声音克隆** | CosyVoice 3.0 | 0.5B 参数量,9 语言 + 18 方言 | | **自动化** | Playwright | 社交媒体无头浏览器自动化 | | **部署** | Docker & PM2 | 混合部署架构 | --- ## 📖 文档中心 我们提供了详尽的开发与部署文档: ### 部署运维 - **[部署手册 (DEPLOY_MANUAL.md)](Docs/DEPLOY_MANUAL.md)** - 👈 **部署请看这里**!包含完整的环境搭建步骤。 - [参考音频服务部署 (COSYVOICE3_DEPLOY.md)](Docs/COSYVOICE3_DEPLOY.md) - 声音克隆模型部署指南。 - [LatentSync 部署指南 (LATENTSYNC_DEPLOY.md)](Docs/LATENTSYNC_DEPLOY.md) - 唇形同步模型独立部署。 - [Supabase 部署指南 (SUPABASE_DEPLOY.md)](Docs/SUPABASE_DEPLOY.md) - Supabase 与认证系统配置。 - [支付宝部署指南 (ALIPAY_DEPLOY.md)](Docs/ALIPAY_DEPLOY.md) - 支付宝付费开通会员配置。 ### 开发文档 - [后端开发指南 (BACKEND_README.md)](Docs/BACKEND_README.md) - 接口规范与开发流程。 - [后端开发规范 (BACKEND_DEV.md)](Docs/BACKEND_DEV.md) - 分层约定与开发习惯。 - [前端开发指南 (FRONTEND_DEV.md)](Docs/FRONTEND_DEV.md) - UI 组件与页面规范。 - [前端组件文档 (FRONTEND_README.md)](Docs/FRONTEND_README.md) - 组件结构与板块说明。 - [Remotion 字幕部署 (SUBTITLE_DEPLOY.md)](Docs/SUBTITLE_DEPLOY.md) - 字幕渲染服务部署。 - [开发日志 (DevLogs)](Docs/DevLogs/) - 每日开发进度与技术决策记录。 --- ## 📂 项目结构 ``` ViGent2/ ├── backend/ # FastAPI 后端服务 │ ├── app/ # 核心业务逻辑 │ ├── assets/ # 字体 / 样式 / BGM │ ├── user_data/ # 用户隔离数据 (Cookie 等) │ └── scripts/ # 运维脚本 (Watchdog 等) ├── frontend/ # Next.js 前端应用 ├── remotion/ # Remotion 视频渲染 (标题/字幕合成) ├── models/ # AI 模型仓库 │ ├── LatentSync/ # 唇形同步服务 │ └── CosyVoice/ # 声音克隆服务 └── Docs/ # 项目文档 ``` --- ## 🌐 服务架构 系统采用微服务架构设计,各组件独立运行: | 服务名称 | 端口 | 用途 | |----------|------|------| | **Web UI** | 3002 | 用户访问入口 (Next.js) | | **Backend API** | 8006 | 核心业务接口 (FastAPI) | | **LatentSync** | 8007 | 唇形同步推理服务 | | **CosyVoice 3.0** | 8010 | 声音克隆推理服务 | | **Supabase** | 8008 | 数据库与认证网关 | --- ## ⚖️ License [MIT License](LICENSE) © 2026 ViGent Team