3.6 KiB
3.6 KiB
## 🔧 Qwen-TTS Flash Attention 优化 (10:00)
### 优化背景
Qwen3-TTS 1.7B 模型在默认情况下加载速度慢,推理显存占用高。通过引入 Flash Attention 2,可以显著提升模型加载速度和推理效率。
### 实施方案
在
qwen-tts Conda 环境中安装 flash-attn:
bash conda activate qwen-tts pip install -U flash-attn --no-build-isolation
### 验证结果
- 加载速度: 从 ~60s 提升至 8.9s ⚡
- 显存占用: 显著降低,消除 OOM 风险
- 代码变动: 无代码变动,仅环境优化 (自动检测)
🛡️ 服务看门狗 Watchdog (10:30)
问题描述
常驻服务 (vigent2-qwen-tts 和 vigent2-latentsync) 可能会因显存碎片或长时间运行出现僵死 (Port open but unresponsive)。
解决方案
开发了一个 Python Watchdog 脚本,每 30 秒轮询服务的 /health 接口,如果连续 3 次失败则自动重启服务。
- Watchdog 脚本:
backend/scripts/watchdog.py - 启动脚本:
run_watchdog.sh(基于 PM2)
核心逻辑
# 连续 3 次心跳失败触发重启
if service["failures"] >= service['threshold']:
subprocess.run(["pm2", "restart", service["name"]])
部署状态
vigent2-watchdog已启动并加入 PM2 列表- 监控对象:
vigent2-qwen-tts(8009),vigent2-latentsync(8007)
⚡ LatentSync 性能确认
经代码审计,LatentSync 1.6 已内置优化:
- ✅ Flash Attention: 原生使用
torch.nn.functional.scaled_dot_product_attention - ✅ DeepCache: 已启用 (
cache_interval=3),提供 ~2.5x 加速 - ✅ GPU 并发: 双卡流水线 (GPU0 TTS | GPU1 LipSync) 已确认工作正常
🎨 UI 交互体验优化 (15:30)
优化内容
- 视频生成完成后,预览优先选中最新输出
- 选择项持久化:素材 / 背景音乐 / 历史视频
- 列表内滚动定位选中项,避免页面跳动
- 刷新回顶部(首页 / 发布页)
- 背景音乐试听即选中并自动开启,音量滑块实时影响试听
涉及文件
frontend/src/app/page.tsxfrontend/src/app/publish/page.tsx
🎵 字体与背景音乐资源库接入 (15:50)
资源库
backend/assets/fonts/(SuperIPAgent 字体全量导入)backend/assets/bgm/(背景音乐素材)backend/assets/styles/{subtitle.json,title.json}(样式预设)
服务能力
/api/assets/subtitle-styles、/api/assets/title-styles、/api/assets/bgm/assets静态挂载供前端预览与试听
生成链路调整
- 先完成人声与唇形/字幕对齐,再混入 BGM
- 修复 FFmpeg shell 解析导致的混音失败
- 禁用 amix 归一化,保证配音音量不被压低
关键修改
backend/app/services/video_service.py
filter_complex = (
"[0:a]volume=1.0[a0];"
f"[1:a]volume={volume}[a1];"
"[a0][a1]amix=inputs=2:duration=first:dropout_transition=2:normalize=0[aout]"
)
🖼️ 标题/字幕样式预览 (16:10)
前端
- 样式选择 + 预览面板
- 字号可调(覆盖样式默认值)
- 字体文件动态加载
Remotion
- 样式参数透传到
Subtitles/Title - 渲染前临时复制字体到渲染目录
📝 文档更新
Docs/QWEN3_TTS_DEPLOY.md: 添加 Flash Attention 安装指南Docs/DEPLOY_MANUAL.md: 添加 Watchdog 部署说明Docs/task_complete.md: 更新进度至 100% (Day 16)README.md: 新增样式与背景音乐能力说明Docs/BACKEND_README.md: 资产接口与混音链路说明Docs/FRONTEND_README.md: 新增样式预览与BGM试听说明