306 lines
8.9 KiB
Markdown
306 lines
8.9 KiB
Markdown
# 数字人口播视频生成系统 - 实现计划
|
||
|
||
## 项目目标
|
||
|
||
构建一个开源的数字人口播视频生成系统,功能包括:
|
||
- 上传静态人物视频 → 生成口播视频(唇形同步)
|
||
- TTS 配音或声音克隆
|
||
- 字幕自动生成与渲染
|
||
- 一键发布到多个社交平台
|
||
|
||
---
|
||
|
||
## 技术架构
|
||
|
||
```
|
||
┌─────────────────────────────────────────────────────────┐
|
||
│ 前端 (Next.js) │
|
||
│ 素材管理 | 视频生成 | 发布管理 | 任务状态 │
|
||
└─────────────────────────────────────────────────────────┘
|
||
│ REST API
|
||
▼
|
||
┌─────────────────────────────────────────────────────────┐
|
||
│ 后端 (FastAPI) │
|
||
├─────────────────────────────────────────────────────────┤
|
||
│ Celery 任务队列 (Redis) │
|
||
│ ├── 视频生成任务 │
|
||
│ ├── TTS 配音任务 │
|
||
│ └── 自动发布任务 │
|
||
└─────────────────────────────────────────────────────────┘
|
||
│ │ │
|
||
▼ ▼ ▼
|
||
┌──────────┐ ┌──────────┐ ┌──────────┐
|
||
│ MuseTalk │ │ FFmpeg │ │Playwright│
|
||
│ 唇形同步 │ │ 视频合成 │ │ 自动发布 │
|
||
└──────────┘ └──────────┘ └──────────┘
|
||
```
|
||
|
||
---
|
||
|
||
## 技术选型
|
||
|
||
| 模块 | 技术选择 | 备选方案 |
|
||
|------|----------|----------|
|
||
| **前端框架** | Next.js 14 | Vue 3 + Vite |
|
||
| **UI 组件库** | Tailwind + shadcn/ui | Ant Design |
|
||
| **后端框架** | FastAPI | Flask |
|
||
| **任务队列** | Celery + Redis | RQ / Dramatiq |
|
||
| **唇形同步** | MuseTalk | Wav2Lip / SadTalker |
|
||
| **TTS 配音** | EdgeTTS | CosyVoice |
|
||
| **声音克隆** | GPT-SoVITS (可选) | - |
|
||
| **视频处理** | FFmpeg | MoviePy |
|
||
| **自动发布** | social-auto-upload | 自行实现 |
|
||
| **数据库** | SQLite → PostgreSQL | MySQL |
|
||
| **文件存储** | 本地 / MinIO | 阿里云 OSS |
|
||
|
||
---
|
||
|
||
## 分阶段实施计划
|
||
|
||
### 阶段一:核心功能验证 (MVP)
|
||
|
||
> **目标**:验证 MuseTalk + EdgeTTS 效果,跑通端到端流程
|
||
|
||
#### 1.1 环境搭建
|
||
|
||
```bash
|
||
# 创建项目目录
|
||
mkdir TalkingHeadAgent
|
||
cd TalkingHeadAgent
|
||
|
||
# 克隆 MuseTalk
|
||
git clone https://github.com/TMElyralab/MuseTalk.git
|
||
|
||
# 安装依赖
|
||
cd MuseTalk
|
||
pip install -r requirements.txt
|
||
|
||
# 下载模型权重 (按官方文档)
|
||
```
|
||
|
||
#### 1.2 集成 EdgeTTS
|
||
|
||
```python
|
||
# tts_engine.py
|
||
import edge_tts
|
||
import asyncio
|
||
|
||
async def text_to_speech(text: str, voice: str = "zh-CN-YunxiNeural", output_path: str = "output.mp3"):
|
||
communicate = edge_tts.Communicate(text, voice)
|
||
await communicate.save(output_path)
|
||
return output_path
|
||
```
|
||
|
||
#### 1.3 端到端测试脚本
|
||
|
||
```python
|
||
# test_pipeline.py
|
||
"""
|
||
1. 文案 → EdgeTTS → 音频
|
||
2. 静态视频 + 音频 → MuseTalk → 口播视频
|
||
3. 添加字幕 → FFmpeg → 最终视频
|
||
"""
|
||
```
|
||
|
||
#### 1.4 验证标准
|
||
- [ ] MuseTalk 能正常推理
|
||
- [ ] 唇形与音频同步率 > 90%
|
||
- [ ] 单个视频生成时间 < 2 分钟
|
||
|
||
---
|
||
|
||
### 阶段二:后端 API 开发
|
||
|
||
> **目标**:将核心功能封装为 API,支持异步任务
|
||
|
||
#### 2.1 项目结构
|
||
|
||
```
|
||
backend/
|
||
├── app/
|
||
│ ├── main.py # FastAPI 入口
|
||
│ ├── api/
|
||
│ │ ├── videos.py # 视频生成 API
|
||
│ │ ├── materials.py # 素材管理 API
|
||
│ │ └── publish.py # 发布管理 API
|
||
│ ├── services/
|
||
│ │ ├── tts_service.py # TTS 服务
|
||
│ │ ├── lipsync_service.py # 唇形同步服务
|
||
│ │ └── video_service.py # 视频合成服务
|
||
│ ├── tasks/
|
||
│ │ └── celery_tasks.py # Celery 异步任务
|
||
│ ├── models/
|
||
│ │ └── schemas.py # Pydantic 模型
|
||
│ └── core/
|
||
│ └── config.py # 配置管理
|
||
├── requirements.txt
|
||
└── docker-compose.yml # Redis + API
|
||
```
|
||
|
||
#### 2.2 核心 API 设计
|
||
|
||
| 端点 | 方法 | 功能 |
|
||
|------|------|------|
|
||
| `/api/materials` | POST | 上传素材视频 |
|
||
| `/api/materials` | GET | 获取素材列表 |
|
||
| `/api/videos/generate` | POST | 创建视频生成任务 |
|
||
| `/api/tasks/{id}` | GET | 查询任务状态 |
|
||
| `/api/videos/{id}/download` | GET | 下载生成的视频 |
|
||
| `/api/publish` | POST | 发布到社交平台 |
|
||
|
||
#### 2.3 Celery 任务定义
|
||
|
||
```python
|
||
# tasks/celery_tasks.py
|
||
@celery.task
|
||
def generate_video_task(material_id: str, text: str, voice: str):
|
||
# 1. TTS 生成音频
|
||
# 2. MuseTalk 唇形同步
|
||
# 3. FFmpeg 添加字幕
|
||
# 4. 保存并返回视频 URL
|
||
pass
|
||
```
|
||
|
||
---
|
||
|
||
### 阶段三:前端 Web UI
|
||
|
||
> **目标**:提供用户友好的操作界面
|
||
|
||
#### 3.1 页面设计
|
||
|
||
| 页面 | 功能 |
|
||
|------|------|
|
||
| **素材库** | 上传/管理多场景素材视频 |
|
||
| **生成视频** | 输入文案、选择素材、生成预览 |
|
||
| **任务中心** | 查看生成进度、下载视频 |
|
||
| **发布管理** | 绑定平台、一键发布、定时发布 |
|
||
|
||
#### 3.2 技术实现
|
||
|
||
```bash
|
||
# 创建 Next.js 项目
|
||
npx create-next-app@latest frontend --typescript --tailwind --app
|
||
|
||
# 安装依赖
|
||
cd frontend
|
||
npm install @tanstack/react-query axios
|
||
```
|
||
|
||
---
|
||
|
||
### 阶段四:社交媒体发布
|
||
|
||
> **目标**:集成 social-auto-upload,支持多平台发布
|
||
|
||
#### 4.1 复用 social-auto-upload
|
||
|
||
```bash
|
||
# 复制模块
|
||
cp -r SuperIPAgent/social-auto-upload backend/social_upload
|
||
```
|
||
|
||
#### 4.2 Cookie 管理
|
||
|
||
```python
|
||
# 用户通过浏览器登录 → 保存 Cookie → 后续自动发布
|
||
```
|
||
|
||
#### 4.3 支持平台
|
||
- 抖音
|
||
- 小红书
|
||
- 微信视频号
|
||
- 快手
|
||
|
||
---
|
||
|
||
### 阶段五:优化与扩展
|
||
|
||
| 功能 | 实现方式 |
|
||
|------|----------|
|
||
| **声音克隆** | 集成 GPT-SoVITS,用自己的声音 |
|
||
| **批量生成** | 上传 Excel/CSV,批量生成视频 |
|
||
| **字幕编辑器** | 可视化调整字幕样式、位置 |
|
||
| **Docker 部署** | 一键部署到云服务器 |
|
||
|
||
---
|
||
|
||
## 项目目录结构 (最终)
|
||
|
||
```
|
||
TalkingHeadAgent/
|
||
├── frontend/ # Next.js 前端
|
||
│ ├── app/
|
||
│ ├── components/
|
||
│ └── package.json
|
||
├── backend/ # FastAPI 后端
|
||
│ ├── app/
|
||
│ ├── MuseTalk/ # 唇形同步模型
|
||
│ ├── social_upload/ # 社交发布模块
|
||
│ └── requirements.txt
|
||
├── docker-compose.yml # 一键部署
|
||
└── README.md
|
||
```
|
||
|
||
---
|
||
|
||
## 开发时间估算
|
||
|
||
| 阶段 | 预计时间 | 说明 |
|
||
|------|----------|------|
|
||
| 阶段一 | 2-3 天 | 环境搭建 + 效果验证 |
|
||
| 阶段二 | 3-4 天 | 后端 API 开发 |
|
||
| 阶段三 | 3-4 天 | 前端 UI 开发 |
|
||
| 阶段四 | 2 天 | 社交发布集成 |
|
||
| 阶段五 | 按需 | 持续优化 |
|
||
|
||
**总计**:约 10-13 天可完成 MVP
|
||
|
||
---
|
||
|
||
## 验证计划
|
||
|
||
### 阶段一验证
|
||
1. 运行 `test_pipeline.py` 脚本
|
||
2. 检查生成视频的唇形同步效果
|
||
3. 确认音画同步
|
||
|
||
### 阶段二验证
|
||
1. 使用 Postman/curl 测试所有 API 端点
|
||
2. 验证任务队列正常工作
|
||
3. 检查视频生成完整流程
|
||
|
||
### 阶段三验证
|
||
1. 在浏览器中完成完整操作流程
|
||
2. 验证上传、生成、下载功能
|
||
3. 检查响应式布局
|
||
|
||
### 阶段四验证
|
||
1. 发布一个测试视频到抖音
|
||
2. 验证定时发布功能
|
||
3. 检查发布状态同步
|
||
|
||
---
|
||
|
||
## 硬件要求
|
||
|
||
| 配置 | 最低要求 | 推荐配置 |
|
||
|------|----------|----------|
|
||
| **GPU** | NVIDIA GTX 1060 6GB | RTX 3060 12GB+ |
|
||
| **内存** | 16GB | 32GB |
|
||
| **存储** | 100GB SSD | 500GB SSD |
|
||
| **CUDA** | 11.7+ | 12.0+ |
|
||
|
||
---
|
||
|
||
## 下一步行动
|
||
|
||
1. **确认你的 GPU 配置** - MuseTalk 需要 NVIDIA GPU
|
||
2. **选择开发起点** - 从阶段一开始验证效果
|
||
3. **确定项目位置** - 在哪个目录创建项目
|
||
|
||
---
|
||
|
||
> [!IMPORTANT]
|
||
> 请确认以上计划是否符合你的需求,有任何需要调整的地方请告诉我。
|