This commit is contained in:
Kevin Wong
2026-02-03 13:46:52 +08:00
parent eb3ed23326
commit cb10da52fc
18 changed files with 1018 additions and 657 deletions

142
Docs/BACKEND_README.md Normal file
View File

@@ -0,0 +1,142 @@
# ViGent2 后端开发指南
本文档为后端开发人员提供架构概览、接口规范以及开发流程指南。
---
## 🏗️ 架构概览
后端采用 **FastAPI** 框架,基于 Python 3.10+ 构建主要负责业务逻辑处理、AI 任务调度以及与各微服务组件的交互。
### 目录结构
```
backend/
├── app/
│ ├── api/ # API 路由定义 (endpoints)
│ ├── core/ # 核心配置 (config.py, security.py)
│ ├── models/ # Pydantic 数据模型 (schemas)
│ ├── services/ # 业务逻辑服务层
│ │ ├── auth_service.py # 用户认证服务
│ │ ├── glm_service.py # GLM-4 大模型服务
│ │ ├── lipsync_service.py # LatentSync 唇形同步
│ │ ├── publish_service.py # 社交媒体发布
│ │ └── voice_clone_service.py# Qwen3-TTS 声音克隆
│ └── tests/ # 单元测试与集成测试
├── scripts/ # 运维脚本 (watchdog.py, init_db.py)
└── requirements.txt # 依赖清单
```
---
## 🔌 API 接口规范
后端服务默认运行在 `8006` 端口。
- **文档地址**: `http://localhost:8006/docs` (Swagger UI)
- **认证方式**: Bearer Token (JWT)
### 核心模块
1. **认证 (Auth)**
* `POST /api/auth/login`: 用户登录 (手机号)
* `POST /api/auth/register`: 用户注册
* `GET /api/auth/me`: 获取当前用户信息
2. **视频生成 (Videos)**
* `POST /api/videos/generate`: 提交生成任务
* `GET /api/videos/{task_id}`: 查询任务状态
* `GET /api/videos/history`: 获取历史视频列表
3. **素材管理 (Materials)**
* `POST /api/materials/upload`: 上传素材 (Direct Upload to Supabase)
* `GET /api/materials`: 获取素材列表
4. **社交发布 (Publish)**
* `POST /api/publish`: 发布视频到 B站/抖音/小红书
---
## 🛠️ 开发环境搭建
### 1. 虚拟环境
```bash
cd backend
python -m venv venv
source venv/bin/activate # Linux/macOS
# .\venv\Scripts\activate # Windows
```
### 2. 依赖安装
```bash
pip install -r requirements.txt
```
### 3. 环境变量配置
复制 `.env.example``.env` 并配置必要的 Key
```ini
# Supabase
SUPABASE_URL=http://localhost:8008
SUPABASE_KEY=your_service_role_key
# GLM API (用于 AI 标题生成)
GLM_API_KEY=your_glm_api_key
# LatentSync 配置
LATENTSYNC_GPU_ID=1
```
### 4. 启动服务
**开发模式 (热重载)**:
```bash
uvicorn app.main:app --host 0.0.0.0 --port 8006 --reload
```
---
## 🧩 服务集成指南
### 集成新模型
如果需要集成新的 AI 模型 (例如新的 TTS 引擎)
1.`app/services/` 下创建新的 Service 类 (如 `NewTTSService`)。
2. 实现 `generate` 方法,可以使用 subprocess 调用,也可以是 HTTP 请求。
3. **重要**: 如果模型占用 GPU请务必使用 `asyncio.Lock` 进行并发控制,防止 OOM。
4.`app/api/` 中添加对应的路由调用。
### 添加定时任务
目前推荐使用 **APScheduler****Crontab** 来管理定时任务。
社交媒体的定时发布功能目前依赖 `playwright` 的延迟执行,未来计划迁移到 Celery 队列。
---
## 🛡️ 错误处理
全项目统一使用 `Loguru` 进行日志记录。
```python
from loguru import logger
try:
# 业务逻辑
except Exception as e:
logger.error(f"操作失败: {str(e)}")
raise HTTPException(status_code=500, detail="服务器内部错误")
```
---
## 🧪 测试
运行测试套件:
```bash
pytest
```

View File

@@ -77,7 +77,7 @@ python -m scripts.server # 测试能否启动Ctrl+C 退出
---
## 步骤 4: 安装后端依赖
## 步骤 4: 安装后端依赖
```bash
cd /home/rongye/ProgramFiles/ViGent2/backend
@@ -92,22 +92,22 @@ pip install torch torchvision torchaudio --index-url https://download.pytorch.or
# 安装 Python 依赖
pip install -r requirements.txt
# 安装 Playwright 浏览器(社交发布需要)
playwright install chromium
```
---
### 可选AI 标题/标签生成
> ✅ 如需启用“AI 标题/标签生成”功能,请确保后端可访问外网 API。
- 需要可访问 `https://open.bigmodel.cn`
- API Key 配置在 `backend/app/services/glm_service.py`(建议替换为自己的密钥)
---
## 步骤 5: 部署用户认证系统 (Supabase + Auth)
# 安装 Playwright 浏览器(社交发布需要)
playwright install chromium
```
---
### 可选AI 标题/标签生成
> ✅ 如需启用“AI 标题/标签生成”功能,请确保后端可访问外网 API。
- 需要可访问 `https://open.bigmodel.cn`
- API Key 配置在 `backend/app/services/glm_service.py`(建议替换为自己的密钥)
---
## 步骤 5: 部署用户认证系统 (Supabase + Auth)
> 🔐 **包含**: 登录/注册、Supabase 数据库配置、JWT 认证、管理员后台
@@ -292,7 +292,17 @@ pm2 save
curl http://localhost:8009/health
```
### 5. 保存当前列表 (开机自启)
### 5. 启动服务看门狗 (Watchdog)
> 🛡️ **推荐**:监控 Qwen-TTS 和 LatentSync 服务健康状态,卡死时自动重启。
```bash
cd /home/rongye/ProgramFiles/ViGent2
pm2 start ./run_watchdog.sh --name vigent2-watchdog
pm2 save
```
### 6. 保存当前列表 (开机自启)
```bash
pm2 save
@@ -357,7 +367,46 @@ server {
---
## 步骤 12: 配置阿里云 Nginx 网关 (关键)
---
## 步骤 13: 部署可选功能 (字幕与文案助手)
本节介绍如何部署逐字高亮字幕、片头标题以及文案提取助手功能。
### 13.1 部署字幕系统 (Subtitle System)
包含 `faster-whisper` (字幕生成) 和 `Remotion` (视频渲染) 组件。
详细步骤请参考:**[字幕功能部署指南](SUBTITLE_DEPLOY.md)**
简要步骤:
1. 安装 Python 依赖: `faster-whisper`
2. 安装 Node.js 依赖: `npm install` (在 `remotion/` 目录)
3. 验证: `npx remotion --version`
### 13.2 部署文案提取助手 (Copywriting Assistant)
支持 B站/抖音/TikTok 视频链接提取文案与 AI 洗稿。
1. **安装核心依赖**:
```bash
cd /home/rongye/ProgramFiles/ViGent2/backend
source venv/bin/activate
pip install yt-dlp zai-sdk
```
2. **配置 AI 洗稿 (GLM)**:
确保 `.env` 中已配置 `GLM_API_KEY`:
```ini
GLM_API_KEY=your_zhipu_api_key
```
3. **验证**:
访问 `http://localhost:8006/docs`,测试 `/api/tools/extract-script` 接口。
---
## 步骤 14: 配置阿里云 Nginx 网关 (关键)
> ⚠️ **CRITICAL**: 如果使用 `api.hbyrkj.top` 等域名作为入口,必须在阿里云 (或公网入口) 的 Nginx 配置中解除上传限制。
> **这是导致 500/413 错误的核心原因。**
@@ -435,16 +484,16 @@ pm2 logs vigent2-qwen-tts
## 依赖清单
### 后端关键依赖
### 后端关键依赖
| 依赖 | 用途 |
|------|------|
| `fastapi` | Web API 框架 |
| `uvicorn` | ASGI 服务器 |
| `edge-tts` | 微软 TTS 配音 |
| `httpx` | GLM API HTTP 客户端 |
| `playwright` | 社交媒体自动发布 |
| `biliup` | B站视频上传 |
| `edge-tts` | 微软 TTS 配音 |
| `httpx` | GLM API HTTP 客户端 |
| `playwright` | 社交媒体自动发布 |
| `biliup` | B站视频上传 |
| `loguru` | 日志管理 |
### 前端关键依赖

60
Docs/DevLogs/Day16.md Normal file
View File

@@ -0,0 +1,60 @@
---
## 🔧 Qwen-TTS Flash Attention 优化 (10:00)
### 优化背景
Qwen3-TTS 1.7B 模型在默认情况下加载速度慢,推理显存占用高。通过引入 Flash Attention 2可以显著提升模型加载速度和推理效率。
### 实施方案
`qwen-tts` Conda 环境中安装 `flash-attn`
```bash
conda activate qwen-tts
pip install -U flash-attn --no-build-isolation
```
### 验证结果
- **加载速度**: 从 ~60s 提升至 **8.9s**
- **显存占用**: 显著降低,消除 OOM 风险
- **代码变动**: 无代码变动,仅环境优化 (自动检测)
---
## 🛡️ 服务看门狗 Watchdog (10:30)
### 问题描述
常驻服务 (`vigent2-qwen-tts``vigent2-latentsync`) 可能会因显存碎片或长时间运行出现僵死 (Port open but unresponsive)。
### 解决方案
开发了一个 Python Watchdog 脚本,每 30 秒轮询服务的 `/health` 接口,如果连续 3 次失败则自动重启服务。
1. **Watchdog 脚本**: `backend/scripts/watchdog.py`
2. **启动脚本**: `run_watchdog.sh` (基于 PM2)
### 核心逻辑
```python
# 连续 3 次心跳失败触发重启
if service["failures"] >= service['threshold']:
subprocess.run(["pm2", "restart", service["name"]])
```
### 部署状态
- `vigent2-watchdog` 已启动并加入 PM2 列表
- 监控对象: `vigent2-qwen-tts` (8009), `vigent2-latentsync` (8007)
---
## ⚡ LatentSync 性能确认
经代码审计LatentSync 1.6 已内置优化:
-**Flash Attention**: 原生使用 `torch.nn.functional.scaled_dot_product_attention`
-**DeepCache**: 已启用 (`cache_interval=3`),提供 ~2.5x 加速
-**GPU 并发**: 双卡流水线 (GPU0 TTS | GPU1 LipSync) 已确认工作正常
---
## 📝 文档更新
- [x] `Docs/QWEN3_TTS_DEPLOY.md`: 添加 Flash Attention 安装指南
- [x] `Docs/DEPLOY_MANUAL.md`: 添加 Watchdog 部署说明
- [x] `Docs/task_complete.md`: 更新进度至 100% (Day 16)

95
Docs/FRONTEND_README.md Normal file
View File

@@ -0,0 +1,95 @@
# ViGent2 Frontend
ViGent2 的前端界面,采用 Next.js 14 + TailwindCSS 构建。
## ✨ 核心功能
### 1. 视频生成 (`/`)
- **素材管理**: 拖拽上传人物视频,实时预览。
- **文案配音**: 集成 EdgeTTS支持多音色选择 (云溪 / 晓晓)。
- **AI 标题/标签**: 一键生成视频标题与标签 (Day 14)。
- **进度追踪**: 实时显示视频生成进度 (10% -> 100%)。
- **结果预览**: 生成完成后直接播放下载。
- **本地保存**: 文案/标题自动保存,刷新后恢复 (Day 14)。
### 2. 全自动发布 (`/publish`) [Day 7 新增]
- **多平台管理**: 统一管理 B站、抖音、小红书账号状态。
- **扫码登录**:
- 集成后端 Playwright 生成的 QR Code。
- 实时检测扫码状态 (Wait/Success)。
- Cookie 自动保存与状态同步。
- **发布配置**: 设置视频标题、标签、简介。
- **定时任务**: 支持 "立即发布" 或 "定时发布"。
### 3. 声音克隆 [Day 13 新增]
- **TTS 模式选择**: EdgeTTS (预设音色) / 声音克隆 (自定义音色) 切换。
- **参考音频管理**: 上传/列表/删除参考音频 (3-20秒 WAV)。
- **一键克隆**: 选择参考音频后自动调用 Qwen3-TTS 服务。
### 4. 字幕与标题 [Day 13 新增]
- **片头标题**: 可选输入,视频开头显示 3 秒淡入淡出标题。
- **逐字高亮字幕**: 卡拉OK效果默认开启可关闭。
- **自动对齐**: 基于 faster-whisper 生成字级别时间戳。
### 5. 账户设置 [Day 15 新增]
- **手机号登录**: 11位中国手机号验证登录。
- **账户下拉菜单**: 显示有效期 + 修改密码 + 安全退出。
- **修改密码**: 弹窗输入当前密码与新密码,修改后强制重新登录。
### 6. 文案提取助手 (`ScriptExtractionModal`) [Day 15 新增]
- **多源提取**: 支持文件拖拽上传与 URL 粘贴 (B站/抖音/TikTok)。
- **AI 洗稿**: 集成 GLM-4.7-Flash自动改写为口播文案。
- **一键填入**: 提取结果直接填充至视频生成输入框。
- **智能交互**: 实时进度展示,防误触设计。
## 🛠️ 技术栈
- **框架**: Next.js 14 (App Router)
- **样式**: TailwindCSS
- **图标**: Lucide React
- **组件**: 自定义现代化组件 (Glassmorphism 风格)
- **API**: Axios 实例 `@/lib/axios` (对接后端 FastAPI :8006)
## 🚀 开发指南
### 安装依赖
```bash
npm install
```
### 启动开发服务器
默认运行在 **3002** 端口 (通过 `package.json` 配置):
```bash
npm run dev
# 访问: http://localhost:3002
```
### 目录结构
```
src/
├── app/
│ ├── page.tsx # 视频生成主页
│ ├── publish/ # 发布管理页
│ │ └── page.tsx
│ └── layout.tsx # 全局布局 (导航栏)
├── components/ # UI 组件
│ ├── VideoUploader.tsx # 视频上传
│ ├── StatusBadge.tsx # 状态徽章
│ └── ...
└── lib/ # 工具函数
```
## 🔌 后端对接
- **Base URL**: `http://localhost:8006`
- **代理配置**: Next.js Rewrites (如需) 或直接 CORS。
## 🎨 设计规范
- **主色调**: 深紫/黑色系 (Dark Mode)
- **交互**: 悬停微动画 (Hover Effects)
- **响应式**: 适配桌面端大屏操作

210
Docs/LatentSync_DEPLOY.md Normal file
View File

@@ -0,0 +1,210 @@
# LatentSync 1.6 部署指南
> 本文档描述如何在 Ubuntu 服务器上部署 LatentSync 1.6 模型。
## 系统要求
| 要求 | 规格 |
|------|------|
| GPU | NVIDIA RTX 3090 24GB (或更高) |
| VRAM | ≥ 18GB |
| CUDA | 12.1+ |
| Python | 3.10.x |
| 系统 | Ubuntu 20.04+ |
---
## 步骤 1: 创建 Conda 环境
```bash
# 创建新的 conda 环境
conda create -y -n latentsync python=3.10.13
conda activate latentsync
# 安装 FFmpeg
conda install -y -c conda-forge ffmpeg
```
---
## 步骤 2: 安装 Python 依赖
```bash
cd /home/rongye/ProgramFiles/ViGent2/models/LatentSync
# 安装 PyTorch (CUDA 12.1)
pip install torch==2.5.1 torchvision==0.20.1 --index-url https://download.pytorch.org/whl/cu121
# 安装其他依赖
pip install -r requirements.txt
```
---
## 步骤 3: 下载模型权重
```bash
cd /home/rongye/ProgramFiles/ViGent2/models/LatentSync
# 使用 HuggingFace CLI 下载权重
huggingface-cli download ByteDance/LatentSync-1.6 whisper/tiny.pt --local-dir checkpoints
huggingface-cli download ByteDance/LatentSync-1.6 latentsync_unet.pt --local-dir checkpoints
```
下载完成后,目录结构应如下:
```
checkpoints/
├── latentsync_unet.pt # ~2GB
└── whisper/
└── tiny.pt # ~76MB
```
---
## 步骤 4: 复制核心代码
从 LatentSync 官方仓库复制以下目录到本地:
```bash
# 克隆仓库 (临时)
cd /tmp
git clone https://github.com/bytedance/LatentSync.git
# 复制核心代码
cd /home/rongye/ProgramFiles/ViGent2/models/LatentSync
cp -r /tmp/LatentSync/latentsync ./
cp -r /tmp/LatentSync/scripts ./
cp -r /tmp/LatentSync/configs ./
# 清理临时文件
rm -rf /tmp/LatentSync
```
---
## 步骤 5: 验证安装
```bash
cd /home/rongye/ProgramFiles/ViGent2/models/LatentSync
conda activate latentsync
# 检查 PyTorch 和 CUDA
python -c "import torch; print(f'PyTorch: {torch.__version__}'); print(f'CUDA: {torch.cuda.is_available()}')"
# 运行推理测试 (使用 GPU1)
CUDA_VISIBLE_DEVICES=1 python -m scripts.inference \
--unet_config_path "configs/unet/stage2_512.yaml" \
--inference_ckpt_path "checkpoints/latentsync_unet.pt" \
--inference_steps 20 \
--guidance_scale 1.5 \
--enable_deepcache \
--video_path "test_video.mp4" \
--audio_path "test_audio.wav" \
--video_out_path "test_output.mp4"
```
---
## 目录结构
部署完成后,目录结构应如下:
```
/home/rongye/ProgramFiles/ViGent2/models/LatentSync/
├── checkpoints/
│ ├── latentsync_unet.pt
│ └── whisper/
│ └── tiny.pt
├── configs/
│ ├── scheduler_config.json
│ └── unet/
│ ├── stage1.yaml
│ ├── stage1_512.yaml
│ ├── stage2.yaml
│ ├── stage2_512.yaml
│ └── stage2_efficient.yaml
├── latentsync/
│ ├── data/
│ ├── models/
│ ├── pipelines/
│ ├── trepa/
│ ├── utils/
│ └── whisper/
├── scripts/
│ └── inference.py
├── requirements.txt
└── DEPLOY.md
```
---
---
## 步骤 7: 性能优化 (预加载模型服务)
为了消除每次生成视频时 30-40秒 的模型加载时间,建议运行常驻服务。
### 1. 安装服务依赖
```bash
conda activate latentsync
pip install fastapi uvicorn
```
### 2. 启动服务
**前台运行 (测试)**:
```bash
cd /home/rongye/ProgramFiles/ViGent2/models/LatentSync
# 启动服务 (端口 8007) - 会自动读取 backend/.env 中的 GPU 配置
python -m scripts.server
```
**后台运行 (推荐)**:
```bash
nohup python -m scripts.server > server.log 2>&1 &
```
### 3. 更新配置
修改 `ViGent2/backend/.env`:
```bash
LATENTSYNC_USE_SERVER=True
```
现在,后端通过 API 调用本地常驻服务,生成速度将显著提升。
---
## 故障排除
### CUDA 内存不足
LatentSync 1.6 需要 ~18GB VRAM。如果遇到 OOM 错误:
1. 确保使用的是 RTX 3090 或更高规格的 GPU
2. 关闭其他 GPU 进程
3. 降低 `inference_steps` (最低 10)
### 模型加载失败
确保以下文件存在:
- `checkpoints/latentsync_unet.pt`
- `checkpoints/whisper/tiny.pt`
- `configs/unet/stage2_512.yaml`
### 视频输出质量问题
调整以下参数:
- `inference_steps`: 增加到 30-50 可提高质量
- `guidance_scale`: 增加可改善唇同步,但过高可能导致抖动
---
## 参考链接
- [LatentSync GitHub](https://github.com/bytedance/LatentSync)
- [HuggingFace 模型](https://huggingface.co/ByteDance/LatentSync-1.6)
- [论文](https://arxiv.org/abs/2412.09262)

View File

@@ -55,9 +55,9 @@ pip install -e .
conda install -y -c conda-forge sox
```
### 可选: 安装 FlashAttention (推荐)
### 可选: 安装 FlashAttention (强烈推荐)
FlashAttention 可以显著提升推理速度并减少显存占用:
FlashAttention 可以显著提升推理速度 (加载时间减少 85%) 并减少显存占用:
```bash
pip install -U flash-attn --no-build-isolation

View File

@@ -348,6 +348,15 @@ cp -r SuperIPAgent/social-auto-upload backend/social_upload
- [x] 前端登录/注册页面更新
- [x] 数据库迁移脚本 (migrate_to_phone.sql)
### 阶段十九:深度性能优化与服务守护 (Day 16) ✅
> **目标**:提升系统响应速度与服务稳定性
- [x] Flash Attention 2 集成 (Qwen3-TTS 加速 5x)
- [x] LatentSync 性能调优 (OMP 线程限制 + 原生 Flash Attn)
- [x] Watchdog 服务守护 (自动重启僵死服务)
- [x] 文档体系更新 (部署手册与运维指南)
---
## 项目目录结构 (最终)

View File

@@ -1,422 +1,91 @@
# ViGent 数字人口播系统 - 开发任务清单
# ViGent2 开发任务清单 (Task Log)
**项目**ViGent2 数字人口播视频生成系统
**服务器**Dell R730 (2× RTX 3090 24GB)
**更新时间**2026-02-02
**整体进度**100%Day 15 手机号登录迁移 + 账户设置功能完成)
## 📖 快速导航
| 章节 | 说明 |
|------|------|
| [已完成任务](#-已完成任务) | Day 1-13 完成的功能 |
| [后续规划](#-后续规划) | 待办项目 |
| [进度统计](#-进度统计) | 各模块完成度 |
| [里程碑](#-里程碑) | 关键节点 |
| [时间线](#-时间线) | 开发历程 |
**相关文档**
- [Day 日志](file:///d:/CodingProjects/Antigravity/ViGent2/Docs/DevLogs/) (Day1-Day15)
- [部署指南](file:///d:/CodingProjects/Antigravity/ViGent2/Docs/DEPLOY_MANUAL.md)
- [Qwen3-TTS 部署](file:///d:/CodingProjects/Antigravity/ViGent2/Docs/QWEN3_TTS_DEPLOY.md)
**项目**: ViGent2 数字人口播视频生成系统
**进度**: 100% (Day 16 - 深度优化完成)
**更新时间**: 2026-02-03
---
## ✅ 已完成任务
## 📅 对话历史与开发日志
### 阶段一:核心功能验证
- [x] EdgeTTS 配音集成
- [x] FFmpeg 视频合成
- [x] MuseTalk 唇形同步 (代码集成)
- [x] 端到端流程验证
> 这里记录了每一天的核心开发内容与 milestone。
### 阶段二:后端 API 开发
- [x] FastAPI 项目搭建
- [x] 视频生成 API
- [x] 素材管理 API
- [x] 文件存储管理
### Day 16: 深度性能优化 (Current) 🚀
- [x] **Qwen-TTS 加速**: 集成 Flash Attention 2模型加载速度提升至 8.9s。
- [x] **服务守护**: 开发 `Watchdog` 看门狗机制,自动监控并重启僵死服务。
- [x] **LatentSync 性能确认**: 验证 DeepCache + 原生 Flash Attn 生效。
- [x] **文档重构**: 全面更新 README、部署手册及后端文档。
### 阶段三:前端 Web UI
- [x] Next.js 项目初始化
- [x] 视频生成页面
- [x] 发布管理页面
- [x] 任务状态展示
### Day 15: 手机号认证迁移
- [x] **认证系统升级**: 从邮箱迁移至 11 位手机号注册/登录。
- [x] **账户管理**: 新增修改密码、有效期显示、安全退出功能。
- [x] **AI 文案助手**: 升级 GLM-4.7-Flash支持 B站/抖音链接提取与洗稿。
### 阶段四:社交媒体发布
- [x] Playwright 自动化框架
- [x] Cookie 管理功能
- [x] 多平台发布 UI
- [x] 定时发布功能 (Day 7)
- [x] QR码自动登录 (Day 7)
### Day 14: AI 增强与体验优化
- [x] **AI 标题/标签**: 集成 GLM-4API 自动生成视频元数据。
- [x] **字幕升级**: Remotion 逐字高亮字幕 (卡拉OK效果) 及动画片头。
- [x] **模型升级**: Qwen3-TTS 升级至 1.7B-Base 版本。
### 阶段五:部署与文档
- [x] 手动部署指南 (DEPLOY_MANUAL.md)
- [x] 一键部署脚本 (deploy.sh)
- [x] 环境配置模板 (.env.example)
- [x] 项目文档 (README.md)
- [x] 端口配置 (8006/3002)
### Day 13: 声音克隆集成
- [x] **声音克隆微服务**: 封装 Qwen3-TTS 为独立 API (8009端口)。
- [x] **参考音频管理**: Supabase 存储桶配置与管理接口。
- [x] **多模态 TTS**: 前端支持 EdgeTTS / Clone Voice 切换。
### 阶段六MuseTalk 服务器部署 (Day 2-3)
- [x] conda 环境配置 (musetalk)
- [x] 模型权重下载 (~7GB)
- [x] subprocess 调用方式实现
- [x] 健康检查功能
- [x] 实际推理调用验证 (Day 3 修复)
### Day 12: 移动端适配
- [x] **iOS 兼容**: 修复 Safari 安全区域、状态栏颜色、Cookie 拦截问题。
- [x] **响应式 UI**: 移动端 Header 与发布页重构。
### 阶段七MuseTalk 完整修复 (Day 4)
- [x] 权重检测路径修复 (软链接)
- [x] 音视频长度不匹配修复 (audio_processor.py)
- [x] 推理脚本错误日志增强 (inference.py)
- [x] 视频合成 MP4 生成验证
- [x] 端到端流程完整测试
### Day 11: 上传架构重构
- [x] **直传优化**: 前端直传 Supabase Storage解决 Nginx 30s 超时问题。
- [x] **数据隔离**: 用户素材/视频按 UserID 物理隔离。
### 阶段八:前端功能增强 (Day 5)
- [x] Web 视频上传功能
- [x] 上传进度显示
- [x] 自动刷新素材列表
### Day 10: HTTPS 与安全
- [x] **HTTPS 部署**: 配置 SSL 证书与 Nginx 反向代理。
- [x] **安全加固**: Supabase Studio 增加 Basic Auth 保护。
### 阶段九:唇形同步模型升级 (Day 6)
- [x] MuseTalk → LatentSync 1.6 迁移
- [x] 后端代码适配 (config.py, lipsync_service.py)
- [x] Conda 环境配置 (latentsync)
- [x] 模型权重部署指南
- [x] 服务器端到端验证
### Day 9: 认证系统与发布闭环
- [x] **用户系统**: 基于 Supabase Auth 实现 JWT 认证。
- [x] **发布闭环**: 验证 B站/抖音/小红书 自动发布流程。
- [x] **服务自愈**: 配置 PM2 进程守护。
### 阶段十:性能优化 (Day 6)
- [x] 视频预压缩优化 (高分辨率自动压缩到720p)
- [x] 进度更新细化 (5% → 10% → 25% → ... → 100%)
- [x] LipSync 服务单例缓存
- [x] 健康检查缓存 (5分钟)
- [x] 异步子进程修复 (subprocess.run → asyncio)
- [x] 预加载模型服务 (常驻 Server + FastAPI)
- [x] 批量队列处理 (GPU 并发控制)
### 阶段十一:社交媒体发布完善 (Day 7)
- [x] QR码自动登录 (Playwright headless)
- [x] 多平台上传器架构 (B站/抖音/小红书)
- [x] B站发布 (biliup官方库)
- [x] 抖音/小红书发布 (Playwright)
- [x] 定时发布功能
- [x] 前端发布UI优化
- [x] Cookie自动管理
- [x] UI一致性修复 (导航栏对齐、滚动条隐藏)
- [x] QR登录超时修复 (Stealth模式、多选择器fallback)
- [x] 文档规则优化 (智能修改标准、工具使用规范)
### 阶段十二:用户体验优化 (Day 8)
- [x] 文件名保留 (时间戳前缀 + 原始名称)
- [x] 视频持久化 (从文件系统读取历史)
- [x] 历史视频列表组件
- [x] 素材/视频删除功能
- [x] 登出功能 (Logout API + 前端按钮)
- [x] 前端 SWR 轮询优化
- [x] QR 登录状态检测修复
### 阶段十三:发布模块优化 (Day 9)
- [x] B站/抖音发布验证通过
- [x] 资源清理保障 (try-finally)
- [x] 超时保护 (消除无限循环)
- [x] 小红书 headless 模式修复
- [x] API 输入验证
- [x] 完整类型提示
- [x] 扫码登录等待界面 (加载动画)
- [x] 抖音/B站登录策略优化 (Text优先)
- [x] 发布成功审核提示
### 阶段十四:用户认证系统 (Day 9)
- [x] Supabase 数据库表设计与部署
- [x] JWT 认证 (HttpOnly Cookie)
- [x] 用户注册/登录/登出 API
- [x] 管理员权限控制 (is_active)
- [x] 单设备登录限制 (Session Token)
- [x] 防止 Supabase 暂停 (GitHub Actions/Crontab)
- [x] 认证部署文档 (AUTH_DEPLOY.md)
### 阶段十五:部署稳定性优化 (Day 9)
- [x] 后端依赖修复 (bcrypt/email-validator)
- [x] 前端生产环境构建修复 (npm run build)
- [x] LatentSync 性能卡顿修复 (OMP_NUM_THREADS限制)
- [x] 部署服务自愈 (PM2 配置优化)
- [x] 部署手册全量更新 (DEPLOY_MANUAL.md)
### 阶段十六HTTPS 部署与细节完善 (Day 10)
- [x] 隧道访问修复 (StaticFiles 挂载 + Rewrite)
- [x] 平台账号列表 500 错误修复 (paths.py)
- [x] Nginx HTTPS 配置 (反向代理 + SSL)
- [x] 浏览器标题修改 (ViGent)
- [x] 代码自适应 HTTPS 验证
- [x] **Supabase 自托管部署** (Docker, 3003/8008端口)
- [x] **安全加固** (Basic Auth 保护后台)
- [x] **端口冲突解决** (迁移 Analytics/Kong)
### 阶段十七:上传架构重构 (Day 11)
- [x] **直传改造** (前端直接上传 Supabase绕过后端代理)
- [x] **后端适配** (Signed URL 签名生成)
- [x] **RLS 策略部署** (SQL 脚本自动化权限配置)
- [x] **超时问题根治** (彻底解决 Nginx/FRP 30s 限制)
- [x] **前端依赖更新** (@supabase/supabase-js 集成)
### 阶段十八:用户隔离与存储优化 (Day 11)
- [x] **用户数据隔离** (素材/视频/Cookie 按用户ID目录隔离)
- [x] **Storage URL 修复** (SUPABASE_PUBLIC_URL 配置,修复 localhost 问题)
- [x] **发布服务优化** (直接读取本地 Supabase Storage 文件,跳过 HTTP 下载)
- [x] **Supabase Studio 配置** (公网访问配置)
### 阶段十九iOS 兼容与移动端 UI 优化 (Day 12)
- [x] **Axios 全局拦截器** (401/403 自动跳转登录,防重复跳转)
- [x] **iOS Safari 安全区域修复** (viewport-fit: cover, themeColor, 渐变背景统一)
- [x] **移动端 Header 优化** (按钮紧凑布局,响应式间距)
- [x] **发布页面 UI 重构** (立即发布/定时发布按钮分离,防误触设计)
- [x] **Qwen3-TTS 1.7B 部署** (声音克隆模型GPU0更高质量)
### 阶段二十:声音克隆功能集成 (Day 13)
- [x] **Qwen3-TTS HTTP 服务** (独立 FastAPI 服务,端口 8009)
- [x] **声音克隆服务** (voice_clone_service.pyHTTP 调用封装)
- [x] **参考音频管理 API** (上传/列表/删除)
- [x] **前端 TTS 模式选择** (EdgeTTS / 声音克隆切换)
- [x] **Supabase ref-audios Bucket** (参考音频存储桶 + RLS 策略)
- [x] **端到端测试验证** (声音克隆完整流程测试通过)
### 阶段二十一:逐字高亮字幕 + 片头标题 (Day 13)
- [x] **faster-whisper 字幕对齐** (字级别时间戳生成)
- [x] **Remotion 视频渲染** (React 视频合成框架)
- [x] **逐字高亮字幕** (卡拉OK效果)
- [x] **片头标题** (淡入淡出动画)
- [x] **前端标题/字幕设置 UI**
- [x] **降级机制** (Remotion 失败时回退 FFmpeg)
### 阶段二十二AI 标题标签 + 前端稳定性修复 (Day 14)
- [x] **Qwen3-TTS 1.7B 模型升级** (0.6B → 1.7B-Base)
- [x] **字幕样式与标题动画优化** (Remotion 视觉增强)
- [x] **AI 标题/标签生成** (GLM-4-Flash API)
- [x] **生成结果同步到发布页** (localStorage 对齐)
- [x] **文案/标题本地保存修复** (刷新后恢复)
- [x] **登录页刷新循环修复** (公开路由跳转豁免)
### 阶段二十三:手机号登录迁移 (Day 15)
- [x] **认证迁移** (邮箱 → 11位手机号)
- [x] **后端 API 适配** (auth.py/admin.py 手机号验证)
- [x] **修改密码功能** (/api/auth/change-password 接口)
- [x] **账户设置菜单** (首页下拉菜单:修改密码 + 有效期显示 + 退出登录)
- [x] **有效期显示** (expires_at 字段显示在账户菜单)
- [x] **点击外部关闭菜单** (useRef + useEffect 监听)
- [x] **前端页面更新** (登录/注册/管理员页面)
- [x] **数据库迁移脚本** (migrate_to_phone.sql)
### Day 1-8: 核心功能构建
- [x] **Day 8**: 历史记录持久化与文件管理。
- [x] **Day 7**: 社交媒体自动登录与多平台发布。
- [x] **Day 6**: **LatentSync 1.6** 升级与服务器部署。
- [x] **Day 5**: 前端视频上传与进度反馈。
- [x] **Day 4**: MuseTalk (旧版) 口型同步修复。
- [x] **Day 3**: 服务器环境配置与模型权重下载。
- [x] **Day 1-2**: 项目基础框架 (FastAPI + Next.js) 搭建。
---
## 🛤️ 后续规划
## 🛤️ 后续规划 (Roadmap)
### 🔴 优先待办
- [ ] 批量视频生成架构设计
### 🟠 功能完善
- [x] Qwen3-TTS 集成到 ViGent2 ✅ Day 13 完成
- [x] 定时发布功能 ✅ Day 7 完成
- [x] 逐字高亮字幕 ✅ Day 13 完成
- [ ] **后端定时发布** - 替代平台端定时,使用 APScheduler 实现任务调度
- [ ] 批量视频生成
- [ ] 字幕样式编辑器
- [ ] **批量生成架构**: 支持 Excel 导入,批量生产视频。
- [ ] **定时任务后台化**: 迁移前端触发的定时发布到后端 APScheduler。
### 🔵 长期探索
- [ ] Docker 容器化
- [ ] Celery 分布式任务队列
- [ ] **容器化交付**: 提供完整的 Docker Compose 一键部署包。
- [ ] **分布式队列**: 引入 Celery + Redis 处理超高并发任务。
---
## 📊 进度统计
### 总体进度
```
████████████████████ 100%
```
### 各模块进度
## 📊 模块完成度
| 模块 | 进度 | 状态 |
|------|------|------|
| 后端 API | 100% | ✅ 完成 |
| 前端 UI | 100% | ✅ 完成 |
| TTS 配音 | 100% | ✅ 完成 |
| 视频合成 | 100% | ✅ 完成 |
| 唇形同步 | 100% | ✅ LatentSync 1.6 升级完成 |
| 社交发布 | 100% | ✅ Day 9 验证通过 |
| 用户认证 | 100% | ✅ Day 9 Supabase+JWT |
| 服务器部署 | 100% | ✅ Day 9 稳定性优化完成 |
| **核心 API** | 100% | ✅ 稳定 |
| **Web UI** | 100% | ✅ 稳定 (移动端适配) |
| **唇形同步** | 100% | ✅ LatentSync 1.6 |
| **TTS 配音** | 100% | ✅ EdgeTTS + Qwen3 |
| **自动发布** | 100% | ✅ B站/抖音/小红书 |
| **用户认证** | 100% | ✅ 手机号 + JWT |
| **部署运维** | 100% | ✅ PM2 + Watchdog |
---
## 🎯 里程碑
### Milestone 1: 项目框架搭建 ✅
**完成时间**: Day 1
**成果**:
- FastAPI 后端 + Next.js 前端
- EdgeTTS + FFmpeg 集成
- 视频生成端到端验证
### Milestone 2: 服务器部署 ✅
**完成时间**: Day 3
**成果**:
- PyTorch 2.0.1 + MMLab 环境修复
- 模型目录重组与权重补全
- MuseTalk 推理成功运行
### Milestone 3: 口型同步完整修复 ✅
**完成时间**: Day 4
**成果**:
- 权重检测路径修复 (软链接)
- 音视频长度不匹配修复
- 视频合成 MP4 验证通过 (28MB → 3.8MB)
### Milestone 4: LatentSync 1.6 升级 ✅
**完成时间**: Day 6
**成果**:
- MuseTalk → LatentSync 1.6 迁移
- 512×512 高分辨率唇形同步
- Latent Diffusion 架构升级
- 性能优化 (视频预压缩、进度更新)
### Milestone 5: 用户认证系统 ✅
**完成时间**: Day 9
**成果**:
- Supabase 云数据库集成
- 安全的 JWT + HttpOnly Cookie 认证
- 管理员后台与用户隔离
- 完善的部署与保活方案
### Milestone 6: 生产环境部署稳定化 ✅
**完成时间**: Day 9
**成果**:
- 修复了后端 (bcrypt) 和前端 (build) 的启动崩溃问题
- 解决了 LatentSync 占用全量 CPU 导致服务器卡顿的严重问题
- 完善了部署手册,记录了关键的 Troubleshooting 步骤
- 实现了服务 Long-term 稳定运行 (Reset PM2 counter)
---
## 📅 时间线
Day 1: 项目初始化 + 核心功能 ✅ 完成
- 后端 API 框架
- 前端 UI
- TTS + 视频合成
- 社交发布框架
- 部署文档
Day 2: 服务器部署 + MuseTalk ✅ 完成
- 端口配置 (8006/3002)
- MuseTalk conda 环境初始化
- subprocess 调用实现
- 健康检查验证
Day 3: 环境修复与验证 ✅ 完成
- PyTorch 降级 (2.5 -> 2.0.1)
- MMLab 依赖全量安装
- 模型权重补全 (dwpose, syncnet)
- 目录结构修复 (symlinks)
- 推理脚本验证 (生成593帧)
Day 4: 口型同步完整修复 ✅ 完成
- 权重检测路径修复 (软链接)
- audio_processor.py 音视频长度修复
- inference.py 错误日志增强
- MP4 视频合成验证通过
Day 5: 前端功能增强 ✅ 完成
- Web 视频上传功能
- 上传进度显示
- 自动刷新素材列表
Day 6: LatentSync 1.6 升级 ✅ 完成
- MuseTalk → LatentSync 迁移
- 后端代码适配
- 模型部署指南
- 服务器部署验证
- 性能优化 (视频预压缩、进度更新)
Day 7: 社交媒体发布完善 ✅ 完成
- QR码自动登录 (B站/抖音验证通过)
- 智能定位策略 (CSS/Text并行)
- 多平台发布 (B站/抖音/小红书)
- UI 一致性优化
- 文档规则体系优化
Day 8: 用户体验优化 ✅ 完成
- 文件名保留 (时间戳前缀)
- 视频持久化 (历史视频API)
- 历史视频列表组件
- 素材/视频删除功能
Day 9: 发布模块优化 ✅ 完成
- B站/抖音登录+发布验证通过
- 资源清理保障 (try-finally)
- 超时保护 (消除无限循环)
- 小红书 headless 模式修复
- 扫码登录等待界面 (加载动画)
- 抖音/B站登录策略优化 (Text优先)
- 发布成功审核提示
- 用户认证系统规划 (FastAPI+Supabase)
- Supabase 表结构设计 (users/sessions)
- 后端 JWT 认证实现 (auth.py/deps.py)
- 数据库配置与 SQL 部署
- 独立认证部署文档 (AUTH_DEPLOY.md)
- 自动保活机制 (Crontab/Actions)
- 部署稳定性优化 (Backend依赖修复)
- 前端生产构建流程修复
- LatentSync 严重卡顿修复 (线程数限制)
- 部署手册全量更新
Day 10: HTTPS 部署与细节完善 ✅ 完成
- 隧道访问视频修正 (挂载 uploads)
- 账号列表 Bug 修复 (paths.py 白名单)
- 阿里云 Nginx HTTPS 部署
- UI 细节优化 (Title 更新)
Day 11: 上传架构重构 ✅ 完成
- **核心修复**: Aliyun Nginx `client_max_body_size 0` 配置
- 500 错误根治 (Direct Upload + Gateway Config)
- Supabase RLS 权限策略部署
- 前端集成 supabase-js
- 彻底解决大文件上传超时 (30s 限制)
- **用户数据隔离** (素材/视频/Cookie 按用户目录存储)
- **Storage URL 修复** (SUPABASE_PUBLIC_URL 公网地址配置)
- **发布服务优化** (本地文件直读,跳过 HTTP 下载)
Day 12: iOS 兼容与移动端优化 ✅ 完成
- Axios 全局拦截器 (401/403 自动跳转登录)
- iOS Safari 安全区域白边修复 (viewport-fit: cover)
- themeColor 配置 (状态栏颜色适配)
- 渐变背景统一 (body 全局渐变,消除分层)
- 移动端 Header 响应式优化 (按钮紧凑布局)
- 发布页面 UI 重构 (立即发布 3/4 + 定时 1/4)
- **Qwen3-TTS 1.7B 部署** (声音克隆模型GPU0)
- **部署文档** (QWEN3_TTS_DEPLOY.md)
Day 13: 声音克隆 + 字幕功能 ✅ 完成
- Qwen3-TTS HTTP 服务 (独立 FastAPI端口 8009)
- 声音克隆服务 (voice_clone_service.py)
- 参考音频管理 API (上传/列表/删除)
- 前端 TTS 模式选择 (EdgeTTS / 声音克隆)
- Supabase ref-audios Bucket 配置
- 端到端测试验证通过
- **faster-whisper 字幕对齐** (字级别时间戳)
- **Remotion 视频渲染** (逐字高亮字幕 + 片头标题)
- **前端标题/字幕设置 UI**
- **部署文档** (SUBTITLE_DEPLOY.md)
Day 14: 模型升级 + AI 标题标签 + 前端修复 ✅ 完成
- Qwen3-TTS 1.7B 模型升级 (0.6B → 1.7B-Base)
- 字幕样式与标题动画优化 (Remotion)
- AI 标题/标签生成接口 + 前端同步
- 文案/标题本地保存修复 (刷新后恢复)
- 登录页刷新循环修复 (公开路由跳转豁免)
Day 15: 手机号登录迁移 + 账户设置 ✅ 完成
- **认证系统迁移** (邮箱 → 11位手机号)
- **账户设置** (修改密码 + 退出登录 + 有效期显示)
- **GLM-4.7 模型升级** (文案洗稿效果提升)
- **文案提取助手** (支持 B站/抖音/URL 提取 + 自动洗稿)
- **视频预览功能** (素材列表预览 + 交互优化)
- **前端交互优化** (滚动条美化、弹窗误触修复)
## 📎 相关文档
- [详细开发日志 (DevLogs)](file:///d:/CodingProjects/Antigravity/ViGent2/Docs/DevLogs/)
- [部署手册 (DEPLOY_MANUAL)](file:///d:/CodingProjects/Antigravity/ViGent2/Docs/DEPLOY_MANUAL.md)