This commit is contained in:
Kevin Wong
2026-01-29 17:58:07 +08:00
parent b74bacb0b5
commit cf679b34bf
3 changed files with 449 additions and 3 deletions

View File

@@ -3,7 +3,7 @@
**项目**ViGent2 数字人口播视频生成系统
**服务器**Dell R730 (2× RTX 3090 24GB)
**更新时间**2026-01-29
**整体进度**100%Day 13 声音克隆功能集成完成)
**整体进度**100%Day 13 声音克隆 + 字幕功能完成)
## 📖 快速导航
@@ -177,6 +177,14 @@
- [x] **Supabase ref-audios Bucket** (参考音频存储桶 + RLS 策略)
- [x] **端到端测试验证** (声音克隆完整流程测试通过)
### 阶段二十一:逐字高亮字幕 + 片头标题 (Day 13)
- [x] **faster-whisper 字幕对齐** (字级别时间戳生成)
- [x] **Remotion 视频渲染** (React 视频合成框架)
- [x] **逐字高亮字幕** (卡拉OK效果)
- [x] **片头标题** (淡入淡出动画)
- [x] **前端标题/字幕设置 UI**
- [x] **降级机制** (Remotion 失败时回退 FFmpeg)
---
## 🛤️ 后续规划
@@ -187,6 +195,7 @@
### 🟠 功能完善
- [x] Qwen3-TTS 集成到 ViGent2 ✅ Day 13 完成
- [x] 定时发布功能 ✅ Day 7 完成
- [x] 逐字高亮字幕 ✅ Day 13 完成
- [ ] **后端定时发布** - 替代平台端定时,使用 APScheduler 实现任务调度
- [ ] 批量视频生成
- [ ] 字幕样式编辑器
@@ -366,11 +375,15 @@ Day 12: iOS 兼容与移动端优化 ✅ 完成
- **Qwen3-TTS 0.6B 部署** (声音克隆模型GPU0)
- **部署文档** (QWEN3_TTS_DEPLOY.md)
Day 13: 声音克隆功能集成 ✅ 完成
Day 13: 声音克隆 + 字幕功能 ✅ 完成
- Qwen3-TTS HTTP 服务 (独立 FastAPI端口 8009)
- 声音克隆服务 (voice_clone_service.py)
- 参考音频管理 API (上传/列表/删除)
- 前端 TTS 模式选择 (EdgeTTS / 声音克隆)
- Supabase ref-audios Bucket 配置
- 端到端测试验证通过
- **faster-whisper 字幕对齐** (字级别时间戳)
- **Remotion 视频渲染** (逐字高亮字幕 + 片头标题)
- **前端标题/字幕设置 UI**
- **部署文档** (SUBTITLE_DEPLOY.md)