Init: 导入源码

2026-01-20 17:14:10 +08:00
parent 16ca022183
commit 83cab45154
49 changed files with 11148 additions and 316 deletions
--- a/Docs/implementation_plan.md
+++ b/Docs/implementation_plan.md
@@ -0,0 +1,305 @@
+# 数字人口播视频生成系统 - 实现计划
+
+## 项目目标
+
+构建一个开源的数字人口播视频生成系统，功能包括：
+- 上传静态人物视频 → 生成口播视频（唇形同步）
+- TTS 配音或声音克隆
+- 字幕自动生成与渲染
+- 一键发布到多个社交平台
+
+---
+
+## 技术架构
+
+```
+┌─────────────────────────────────────────────────────────┐
+│                    前端 (Next.js)                        │
+│         素材管理 | 视频生成 | 发布管理 | 任务状态         │
+└─────────────────────────────────────────────────────────┘
+                            │ REST API
+                            ▼
+┌─────────────────────────────────────────────────────────┐
+│                   后端 (FastAPI)                         │
+├─────────────────────────────────────────────────────────┤
+│  Celery 任务队列 (Redis)                                 │
+│  ├── 视频生成任务                                        │
+│  ├── TTS 配音任务                                        │
+│  └── 自动发布任务                                        │
+└─────────────────────────────────────────────────────────┘
+        │               │               │
+        ▼               ▼               ▼
+  ┌──────────┐   ┌──────────┐   ┌──────────┐
+  │ MuseTalk │   │  FFmpeg  │   │Playwright│
+  │ 唇形同步  │   │ 视频合成  │   │ 自动发布  │
+  └──────────┘   └──────────┘   └──────────┘
+```
+
+---
+
+## 技术选型
+
+| 模块 | 技术选择 | 备选方案 |
+|------|----------|----------|
+| **前端框架** | Next.js 14 | Vue 3 + Vite |
+| **UI 组件库** | Tailwind + shadcn/ui | Ant Design |
+| **后端框架** | FastAPI | Flask |
+| **任务队列** | Celery + Redis | RQ / Dramatiq |
+| **唇形同步** | MuseTalk | Wav2Lip / SadTalker |
+| **TTS 配音** | EdgeTTS | CosyVoice |
+| **声音克隆** | GPT-SoVITS (可选) | - |
+| **视频处理** | FFmpeg | MoviePy |
+| **自动发布** | social-auto-upload | 自行实现 |
+| **数据库** | SQLite → PostgreSQL | MySQL |
+| **文件存储** | 本地 / MinIO | 阿里云 OSS |
+
+---
+
+## 分阶段实施计划
+
+### 阶段一：核心功能验证 (MVP)
+
+> **目标**：验证 MuseTalk + EdgeTTS 效果，跑通端到端流程
+
+#### 1.1 环境搭建
+
+```bash
+# 创建项目目录
+mkdir TalkingHeadAgent
+cd TalkingHeadAgent
+
+# 克隆 MuseTalk
+git clone https://github.com/TMElyralab/MuseTalk.git
+
+# 安装依赖
+cd MuseTalk
+pip install -r requirements.txt
+
+# 下载模型权重 (按官方文档)
+```
+
+#### 1.2 集成 EdgeTTS
+
+```python
+# tts_engine.py
+import edge_tts
+import asyncio
+
+async def text_to_speech(text: str, voice: str = "zh-CN-YunxiNeural", output_path: str = "output.mp3"):
+    communicate = edge_tts.Communicate(text, voice)
+    await communicate.save(output_path)
+    return output_path
+```
+
+#### 1.3 端到端测试脚本
+
+```python
+# test_pipeline.py
+"""
+1. 文案 → EdgeTTS → 音频
+2. 静态视频 + 音频 → MuseTalk → 口播视频
+3. 添加字幕 → FFmpeg → 最终视频
+"""
+```
+
+#### 1.4 验证标准
+- [ ] MuseTalk 能正常推理
+- [ ] 唇形与音频同步率 > 90%
+- [ ] 单个视频生成时间 < 2 分钟
+
+---
+
+### 阶段二：后端 API 开发
+
+> **目标**：将核心功能封装为 API，支持异步任务
+
+#### 2.1 项目结构
+
+```
+backend/
+├── app/
+│   ├── main.py              # FastAPI 入口
+│   ├── api/
+│   │   ├── videos.py        # 视频生成 API
+│   │   ├── materials.py     # 素材管理 API
+│   │   └── publish.py       # 发布管理 API
+│   ├── services/
+│   │   ├── tts_service.py   # TTS 服务
+│   │   ├── lipsync_service.py  # 唇形同步服务
+│   │   └── video_service.py    # 视频合成服务
+│   ├── tasks/
+│   │   └── celery_tasks.py  # Celery 异步任务
+│   ├── models/
+│   │   └── schemas.py       # Pydantic 模型
+│   └── core/
+│       └── config.py        # 配置管理
+├── requirements.txt
+└── docker-compose.yml       # Redis + API
+```
+
+#### 2.2 核心 API 设计
+
+| 端点 | 方法 | 功能 |
+|------|------|------|
+| `/api/materials` | POST | 上传素材视频 |
+| `/api/materials` | GET | 获取素材列表 |
+| `/api/videos/generate` | POST | 创建视频生成任务 |
+| `/api/tasks/{id}` | GET | 查询任务状态 |
+| `/api/videos/{id}/download` | GET | 下载生成的视频 |
+| `/api/publish` | POST | 发布到社交平台 |
+
+#### 2.3 Celery 任务定义
+
+```python
+# tasks/celery_tasks.py
+@celery.task
+def generate_video_task(material_id: str, text: str, voice: str):
+    # 1. TTS 生成音频
+    # 2. MuseTalk 唇形同步
+    # 3. FFmpeg 添加字幕
+    # 4. 保存并返回视频 URL
+    pass
+```
+
+---
+
+### 阶段三：前端 Web UI
+
+> **目标**：提供用户友好的操作界面
+
+#### 3.1 页面设计
+
+| 页面 | 功能 |
+|------|------|
+| **素材库** | 上传/管理多场景素材视频 |
+| **生成视频** | 输入文案、选择素材、生成预览 |
+| **任务中心** | 查看生成进度、下载视频 |
+| **发布管理** | 绑定平台、一键发布、定时发布 |
+
+#### 3.2 技术实现
+
+```bash
+# 创建 Next.js 项目
+npx create-next-app@latest frontend --typescript --tailwind --app
+
+# 安装依赖
+cd frontend
+npm install @tanstack/react-query axios
+```
+
+---
+
+### 阶段四：社交媒体发布
+
+> **目标**：集成 social-auto-upload，支持多平台发布
+
+#### 4.1 复用 social-auto-upload
+
+```bash
+# 复制模块
+cp -r SuperIPAgent/social-auto-upload backend/social_upload
+```
+
+#### 4.2 Cookie 管理
+
+```python
+# 用户通过浏览器登录 → 保存 Cookie → 后续自动发布
+```
+
+#### 4.3 支持平台
+- 抖音
+- 小红书
+- 微信视频号
+- 快手
+
+---
+
+### 阶段五：优化与扩展
+
+| 功能 | 实现方式 |
+|------|----------|
+| **声音克隆** | 集成 GPT-SoVITS，用自己的声音 |
+| **批量生成** | 上传 Excel/CSV，批量生成视频 |
+| **字幕编辑器** | 可视化调整字幕样式、位置 |
+| **Docker 部署** | 一键部署到云服务器 |
+
+---
+
+## 项目目录结构 (最终)
+
+```
+TalkingHeadAgent/
+├── frontend/                # Next.js 前端
+│   ├── app/
+│   ├── components/
+│   └── package.json
+├── backend/                 # FastAPI 后端
+│   ├── app/
+│   ├── MuseTalk/            # 唇形同步模型
+│   ├── social_upload/       # 社交发布模块
+│   └── requirements.txt
+├── docker-compose.yml       # 一键部署
+└── README.md
+```
+
+---
+
+## 开发时间估算
+
+| 阶段 | 预计时间 | 说明 |
+|------|----------|------|
+| 阶段一 | 2-3 天 | 环境搭建 + 效果验证 |
+| 阶段二 | 3-4 天 | 后端 API 开发 |
+| 阶段三 | 3-4 天 | 前端 UI 开发 |
+| 阶段四 | 2 天 | 社交发布集成 |
+| 阶段五 | 按需 | 持续优化 |
+
+**总计**：约 10-13 天可完成 MVP
+
+---
+
+## 验证计划
+
+### 阶段一验证
+1. 运行 `test_pipeline.py` 脚本
+2. 检查生成视频的唇形同步效果
+3. 确认音画同步
+
+### 阶段二验证
+1. 使用 Postman/curl 测试所有 API 端点
+2. 验证任务队列正常工作
+3. 检查视频生成完整流程
+
+### 阶段三验证
+1. 在浏览器中完成完整操作流程
+2. 验证上传、生成、下载功能
+3. 检查响应式布局
+
+### 阶段四验证
+1. 发布一个测试视频到抖音
+2. 验证定时发布功能
+3. 检查发布状态同步
+
+---
+
+## 硬件要求
+
+| 配置 | 最低要求 | 推荐配置 |
+|------|----------|----------|
+| **GPU** | NVIDIA GTX 1060 6GB | RTX 3060 12GB+ |
+| **内存** | 16GB | 32GB |
+| **存储** | 100GB SSD | 500GB SSD |
+| **CUDA** | 11.7+ | 12.0+ |
+
+---
+
+## 下一步行动
+
+1. **确认你的 GPU 配置** - MuseTalk 需要 NVIDIA GPU
+2. **选择开发起点** - 从阶段一开始验证效果
+3. **确定项目位置** - 在哪个目录创建项目
+
+---
+
+> [!IMPORTANT]
+> 请确认以上计划是否符合你的需求，有任何需要调整的地方请告诉我。