4.1 KiB
4.1 KiB
ViGent2 开发任务清单 (Task Log)
项目: ViGent2 数字人口播视频生成系统
进度: 100% (Day 16 - 深度优化完成)
更新时间: 2026-02-03
📅 对话历史与开发日志
这里记录了每一天的核心开发内容与 milestone。
Day 16: 深度性能优化 (Current) 🚀
- Qwen-TTS 加速: 集成 Flash Attention 2,模型加载速度提升至 8.9s。
- 服务守护: 开发
Watchdog看门狗机制,自动监控并重启僵死服务。 - LatentSync 性能确认: 验证 DeepCache + 原生 Flash Attn 生效。
- 文档重构: 全面更新 README、部署手册及后端文档。
- UI 交互优化: 选择项持久化、列表内定位、刷新回顶部。
- 样式与预览: 标题/字幕样式选择 + 预览 + 字号调节。
- 背景音乐: 试听 + 音量控制 + 混音稳定性修复。
- 资产库接入: 字体/BGM 资源库 +
/api/assets资源接口。
Day 15: 手机号认证迁移
- 认证系统升级: 从邮箱迁移至 11 位手机号注册/登录。
- 账户管理: 新增修改密码、有效期显示、安全退出功能。
- AI 文案助手: 升级 GLM-4.7-Flash,支持 B站/抖音链接提取与洗稿。
Day 14: AI 增强与体验优化
- AI 标题/标签: 集成 GLM-4API 自动生成视频元数据。
- 字幕升级: Remotion 逐字高亮字幕 (卡拉OK效果) 及动画片头。
- 模型升级: Qwen3-TTS 升级至 1.7B-Base 版本。
Day 13: 声音克隆集成
- 声音克隆微服务: 封装 Qwen3-TTS 为独立 API (8009端口)。
- 参考音频管理: Supabase 存储桶配置与管理接口。
- 多模态 TTS: 前端支持 EdgeTTS / Clone Voice 切换。
Day 12: 移动端适配
- iOS 兼容: 修复 Safari 安全区域、状态栏颜色、Cookie 拦截问题。
- 响应式 UI: 移动端 Header 与发布页重构。
Day 11: 上传架构重构
- 直传优化: 前端直传 Supabase Storage,解决 Nginx 30s 超时问题。
- 数据隔离: 用户素材/视频按 UserID 物理隔离。
Day 10: HTTPS 与安全
- HTTPS 部署: 配置 SSL 证书与 Nginx 反向代理。
- 安全加固: Supabase Studio 增加 Basic Auth 保护。
Day 9: 认证系统与发布闭环
- 用户系统: 基于 Supabase Auth 实现 JWT 认证。
- 发布闭环: 验证 B站/抖音/小红书 自动发布流程。
- 服务自愈: 配置 PM2 进程守护。
Day 1-8: 核心功能构建
- Day 8: 历史记录持久化与文件管理。
- Day 7: 社交媒体自动登录与多平台发布。
- Day 6: LatentSync 1.6 升级与服务器部署。
- Day 5: 前端视频上传与进度反馈。
- Day 4: MuseTalk (旧版) 口型同步修复。
- Day 3: 服务器环境配置与模型权重下载。
- Day 1-2: 项目基础框架 (FastAPI + Next.js) 搭建。
🛤️ 后续规划 (Roadmap)
🔴 优先待办
- 批量生成架构: 支持 Excel 导入,批量生产视频。
- 定时任务后台化: 迁移前端触发的定时发布到后端 APScheduler。
🔵 长期探索
- 容器化交付: 提供完整的 Docker Compose 一键部署包。
- 分布式队列: 引入 Celery + Redis 处理超高并发任务。
📊 模块完成度
| 模块 | 进度 | 状态 |
|---|---|---|
| 核心 API | 100% | ✅ 稳定 |
| Web UI | 100% | ✅ 稳定 (移动端适配) |
| 唇形同步 | 100% | ✅ LatentSync 1.6 |
| TTS 配音 | 100% | ✅ EdgeTTS + Qwen3 |
| 自动发布 | 100% | ✅ B站/抖音/小红书 |
| 用户认证 | 100% | ✅ 手机号 + JWT |
| 部署运维 | 100% | ✅ PM2 + Watchdog |