ViGent2/Docs/BACKEND_README.md

# ViGent2 后端开发指南

本文档提供后端架构概览与接口规范。开发规范与分层约定见 `Docs/BACKEND_DEV.md`。

---

## 🏗️ 架构概览

后端采用 **FastAPI** 框架，基于 Python 3.10+ 构建，主要负责业务逻辑处理、AI 任务调度以及与各微服务组件的交互。

### 目录结构

```
backend/
├── app/
│   ├── core/             # 核心配置 (config.py, security.py, response.py)
│   ├── modules/          # 业务模块 (router/service/workflow/schemas)
│   │   ├── videos/       # 视频生成任务（router/schemas/service/workflow）
│   │   ├── materials/    # 素材管理（router/schemas/service）
│   │   ├── publish/      # 多平台发布
│   │   ├── auth/         # 认证与会话
│   │   ├── ai/              # AI 功能（标题标签生成、多语言翻译）
│   │   ├── assets/          # 静态资源（字体/样式/BGM）
│   │   ├── ref_audios/      # 声音克隆参考音频（router/schemas/service）
│   │   ├── generated_audios/ # 预生成配音管理（router/schemas/service）
│   │   ├── login_helper/    # 扫码登录辅助
│   │   ├── tools/           # 工具接口（router/schemas/service）
│   │   ├── payment/         # 支付宝付费开通（router/schemas/service）
│   │   └── admin/           # 管理员功能
│   ├── repositories/     # Supabase 数据访问
│   ├── services/         # 外部服务集成 (TTS/Remotion/Storage/Uploader 等)
│   └── tests/            # 单元测试与集成测试
├── scripts/              # 运维脚本 (watchdog.py, init_db.py)
├── assets/               # 资源库 (fonts, bgm, styles)
├── user_data/            # 用户隔离数据 (Cookie 等)
└── requirements.txt      # 依赖清单
```

---

## 🔌 API 接口规范

后端服务默认运行在 `8006` 端口。

- **文档地址**: `http://localhost:8006/docs` (Swagger UI)
- **认证方式**: HttpOnly Cookie (JWT)

### 核心模块

1.  **认证 (Auth)**
    *   `POST /api/auth/login`: 用户登录 (手机号)
    *   `POST /api/auth/register`: 用户注册
    *   `GET /api/auth/me`: 获取当前用户信息

> 授权有效期策略：在登录与受保护接口鉴权时，后端会检查 `users.expires_at`。账号到期会自动停用 (`is_active=false`) 并清理 session，返回 `403: 会员已到期，请续费`。

2.  **视频生成 (Videos)**
    *   `POST /api/videos/generate`: 提交生成任务
    *   `GET /api/videos/tasks/{task_id}`: 查询单个任务状态
    *   `GET /api/videos/tasks`: 获取用户所有任务列表
    *   `GET /api/videos/generated`: 获取历史视频列表
    *   `DELETE /api/videos/generated/{video_id}`: 删除历史视频

3.  **素材管理 (Materials)**
    *   `POST /api/materials`: 上传素材
    *   `GET /api/materials`: 获取素材列表
    *   `PUT /api/materials/{material_id}`: 重命名素材

4.  **社交发布 (Publish)**
    *   `POST /api/publish`: 发布视频到 抖音/微信视频号/B站/小红书
    *   `POST /api/publish/login`: 扫码登录平台
    *   `GET /api/publish/login/status`: 查询登录状态（含刷脸验证二维码）
    *   `GET /api/publish/accounts`: 获取已登录账号列表

> 提示：视频号/抖音发布建议使用 headful + xvfb-run 运行后端。

5.  **资源库 (Assets)**
    *   `GET /api/assets/subtitle-styles`: 字幕样式列表
    *   `GET /api/assets/title-styles`: 标题样式列表
    *   `GET /api/assets/bgm`: 背景音乐列表

6.  **声音克隆 (Ref Audios)**
    *   `POST /api/ref-audios`: 上传参考音频 (multipart/form-data，自动 Whisper 转写 ref_text)
    *   `GET /api/ref-audios`: 获取参考音频列表
    *   `PUT /api/ref-audios/{id}`: 重命名参考音频
    *   `DELETE /api/ref-audios/{id}`: 删除参考音频
    *   `POST /api/ref-audios/{id}/retranscribe`: 重新识别参考音频文字（Whisper 转写 + 超 10s 自动截取）

7.  **AI 功能 (AI)**
    *   `POST /api/ai/generate-meta`: AI 生成标题和标签
    *   `POST /api/ai/translate`: AI 多语言翻译（支持 9 种目标语言）

8.  **预生成配音 (Generated Audios)**
    *   `POST /api/generated-audios/generate`: 异步生成配音（返回 task_id）
    *   `GET /api/generated-audios/tasks/{task_id}`: 轮询生成进度
    *   `GET /api/generated-audios`: 列出用户所有配音
    *   `DELETE /api/generated-audios/{audio_id}`: 删除配音
    *   `PUT /api/generated-audios/{audio_id}`: 重命名配音

9.  **工具 (Tools)**
    *   `POST /api/tools/extract-script`: 从视频链接提取文案

10. **健康检查**
    *   `GET /api/lipsync/health`: 唇形同步服务健康状态（含 LatentSync + MuseTalk + 混合路由阈值）
    *   `GET /api/voiceclone/health`: CosyVoice 3.0 服务健康状态

11. **支付 (Payment)**
    *   `POST /api/payment/create-order`: 创建支付宝电脑网站支付订单（需 payment_token）
    *   `POST /api/payment/notify`: 支付宝异步通知回调（返回纯文本 success/fail）
    *   `GET /api/payment/status/{out_trade_no}`: 查询订单支付状态（前端轮询）

> 登录时若账号未激活或已过期，返回 403 + `payment_token`，前端跳转 `/pay` 页面完成付费。详见 [支付宝部署指南](ALIPAY_DEPLOY.md)。

### 统一响应结构

```json
{
  "success": true,
  "message": "ok",
  "data": { },
  "code": 0
}
```

---

## 🎛️ 视频生成扩展参数

`POST /api/videos/generate` 支持以下可选字段：

- `material_path`: 视频素材路径（单素材模式）
- `material_paths`: 多素材路径数组（多机位模式，≥2 个素材时按句子自动切换）
- `tts_mode`: TTS 模式 (`edgetts` / `voiceclone`)
- `voice`: EdgeTTS 音色 ID（edgetts 模式）
- `ref_audio_id` / `ref_text`: 参考音频 ID 与文本（voiceclone 模式）
- `generated_audio_id`: 预生成配音 ID（存在时跳过内联 TTS，使用已生成的配音文件）
- `speed`: 语速（声音克隆模式，默认 1.0，范围 0.8-1.2）
- `custom_assignments`: 自定义素材分配数组（每项含 `material_path` / `start` / `end` / `source_start` / `source_end?`），存在时优先按时间轴可见段生成
- `output_aspect_ratio`: 输出画面比例（`9:16` 或 `16:9`，默认 `9:16`）
- `language`: TTS 语言（默认自动检测，声音克隆时透传给 CosyVoice 3.0）
- `title`: 片头标题文字
- `title_display_mode`: 标题显示模式（`short` / `persistent`，默认 `short`）
- `title_duration`: 标题显示时长（秒，默认 `4.0`；`short` 模式生效）
- `subtitle_style_id`: 字幕样式 ID
- `title_style_id`: 标题样式 ID
- `subtitle_font_size`: 字幕字号（覆盖样式默认值）
- `title_font_size`: 标题字号（覆盖样式默认值）
- `title_top_margin`: 标题距顶部像素
- `secondary_title`: 片头副标题文字（可选，限 20 字，仅视频画面显示）
- `secondary_title_style_id`: 副标题样式 ID
- `secondary_title_font_size`: 副标题字号
- `secondary_title_top_margin`: 副标题距主标题间距
- `subtitle_bottom_margin`: 字幕距底部像素
- `enable_subtitles`: 是否启用字幕
- `bgm_id`: 背景音乐 ID
- `bgm_volume`: 背景音乐音量（0-1，默认 0.2）

### 多素材稳定性说明

- 多素材片段在拼接前统一重编码，并强制 `25fps + CFR`，减少段边界时间基不一致导致的画面卡顿。
- concat 流程启用 `+genpts` 重建时间戳，提升拼接后时间轴连续性。
- 对带旋转元数据的 MOV 素材会先做方向归一化，再进入分辨率判断和后续流程。

## 📦 资源库与静态资源

- 本地资源目录：`backend/assets/{fonts,bgm,styles}`
- 静态访问路径：`/assets`（用于前端样式预览与背景音乐试听）

## 🎵 背景音乐混音策略

- 混音发生在 **唇形对齐之后**，避免影响字幕/口型时间轴。
- 使用 FFmpeg `amix`，禁用归一化以保持配音音量稳定。

## 🛠️ 开发环境搭建

### 1. 虚拟环境

```bash
cd backend
python -m venv venv
source venv/bin/activate  # Linux/macOS
# .\venv\Scripts\activate # Windows
```

### 2. 依赖安装

```bash
pip install -r requirements.txt
```

### 3. 环境变量配置

复制 `.env.example` 到 `.env` 并配置必要的 Key：

```ini
# Supabase
SUPABASE_URL=http://localhost:8008
SUPABASE_KEY=your_service_role_key

# GLM API (用于 AI 标题生成)
GLM_API_KEY=your_glm_api_key

# LatentSync 配置
LATENTSYNC_GPU_ID=1

# MuseTalk 配置 (长视频唇形同步)
MUSETALK_GPU_ID=0
MUSETALK_API_URL=http://localhost:8011
MUSETALK_BATCH_SIZE=32
LIPSYNC_DURATION_THRESHOLD=120
```

### 4. 启动服务

**开发模式 (热重载)**:
```bash
uvicorn app.main:app --host 0.0.0.0 --port 8006 --reload
```

---

## 🧩 服务集成指南

### 集成新模型

如果需要集成新的 AI 模型 (例如新的 TTS 引擎)：

1.  在 `app/services/` 下创建新的 Service 类 (如 `NewTTSService`)。
2.  实现 `generate` 方法，可以使用 subprocess 调用，也可以是 HTTP 请求。
3.  **重要**: 如果模型占用 GPU，请务必使用 `asyncio.Lock` 进行并发控制，防止 OOM。
4.  在 `app/modules/` 下创建对应模块，添加 router/service/schemas，并在 `main.py` 注册路由。

### 唇形同步混合路由

`lipsync_service.py` 实现了 LatentSync + MuseTalk 混合路由：
- 短视频 (<`LIPSYNC_DURATION_THRESHOLD`s) → LatentSync 1.6 (GPU1, 端口 8007)
- 长视频 (>=阈值) → MuseTalk 1.5 (GPU0, 端口 8011)
- MuseTalk 不可用时自动回退到 LatentSync
- 路由逻辑对 workflow 完全透明

### 添加定时任务

目前推荐使用 **APScheduler** 或 **Crontab** 来管理定时任务。
社交媒体的定时发布功能目前依赖 `playwright` 的延迟执行，未来计划迁移到 Celery 队列。

---

## 🛡️ 错误处理

全项目统一使用 `Loguru` 进行日志记录。

```python
from loguru import logger

try:
    # 业务逻辑
except Exception as e:
    logger.error(f"操作失败: {str(e)}")
    raise HTTPException(status_code=500, detail="服务器内部错误")
```

---

## 🧪 测试

运行测试套件：

```bash
pytest
```