Init: 导入开发日志和项目文档

2025-12-31 16:18:28 +08:00
commit bcebc7e316
32 changed files with 9208 additions and 0 deletions
--- a/技术栈对比.md
+++ b/技术栈对比.md
@@ -0,0 +1,36 @@
+## 技术栈对比
+
+### 1. AI 交互核心 (最大升级)
+
+| 维度               | 原版代码 (Temp)              | 当前服务器 (Day 22)              | 优化价值                           |
+| :----------------- | :--------------------------- | :------------------------------- | :--------------------------------- |
+| **架构模式**       | **全云端 (All-in-Cloud)**    | **端云混合 (Hybrid Edge-Cloud)** | 响应更快，成本更低，可控性更强     |
+| **大模型**         | Qwen-Omni (阿里云 DashScope) | **GLM-4.6v-Flash** (智谱 AI)     | **视觉能力飞跃**，支持实时视频理解 |
+| **语音识别**       | Paraformer (云端 API)        | **SenseVoiceSmall** (本地部署)   | **隐私安全**，0 延迟，支持多语种   |
+| **语音检测 (VAD)** | 无 / 简单能量检测            | **Silero VAD** (本地深度学习)    | **抗噪能力强**，300ms 缓冲防截断   |
+| **语音合成 (TTS)** | Omni 内置流式 TTS            | **EdgeTTS** (微软 Edge 接口)     | **音色更自然**，解耦了 LLM 与 TTS  |
+
+### 2. 计算与图像加速 (硬核性能)
+
+| 维度           | 原版代码 (Temp)            | 当前服务器 (Day 22)             | 优化价值                            |
+| :------------- | :------------------------- | :------------------------------ | :---------------------------------- |
+| **推理引擎**   | PyTorch (原生)             | **TensorRT (FP16/INT8)**        | **300%+ 推理加速**，显存占用减半    |
+| **图像编解码** | OpenCV (`imencode/decode`) | **PyTurboJPEG** (libjpeg-turbo) | **2-3 倍编解码速度**，降低 CPU 负载 |
+| **矩阵运算**   | NumPy (CPU)                | **Numba (JIT 编译)**            | **10-100 倍加速** (针对像素级操作)  |
+| **模型加载**   | `.pt` (PyTorch 权重)       | `.engine` (TensorRT 引擎)       | 针对 RTX 3090 硬件级优化            |
+| **并发控制**   | 无限制 (易 OOM)            | **GPU Semaphore** (信号量)      | 智能管控并发槽位，**永不爆显存**    |
+
+### 3. 系统架构与稳定性
+
+*   **代码解耦**：
+    *   **原版**：`app_main.py` 是一个 1300+ 行的巨型文件，混合了 Web、AI、ASR、CV 所有逻辑。
+    *   **当前**：AI 逻辑拆分为 `ai_voice_pipeline.py`，模型管理拆分为 `models.py`，ASR/VAD 均为独立模块。
+*   **依赖精简**：
+    *   移除了庞大的 `DashScope` SDK 依赖，改用轻量级官方 SDK。
+*   **健壮性**：
+    *   新增了 **Server-Side VAD**，即使终端只传回来原始音频，服务器也能精准切分语音，彻底解决了“AI 抢话”或“听不清”的问题。
+
+## 总结
+
+原代码是一个基于云服务 API 快速搭建的**原型验证 (PoC)** 系统。
+现在的服务器是一个**生产级 (Production-Ready)** 的高性能计算节点，充分榨干了本地 RTX 3090 的每一滴性能。