Docs/技术栈对比.md at main - Docs - Gitea: Git with a cup of tea

NaviGlass/Docs

Files

Kevin Wong bcebc7e316 Init: 导入开发日志和项目文档

2025-12-31 16:18:28 +08:00

2.9 KiB

Raw Permalink Blame History

技术栈对比

1. AI 交互核心 (最大升级)

维度	原版代码 (Temp)	当前服务器 (Day 22)	优化价值
架构模式	全云端 (All-in-Cloud)	端云混合 (Hybrid Edge-Cloud)	响应更快，成本更低，可控性更强
大模型	Qwen-Omni (阿里云 DashScope)	GLM-4.6v-Flash (智谱 AI)	视觉能力飞跃，支持实时视频理解
语音识别	Paraformer (云端 API)	SenseVoiceSmall (本地部署)	隐私安全，0 延迟，支持多语种
语音检测 (VAD)	无 / 简单能量检测	Silero VAD (本地深度学习)	抗噪能力强，300ms 缓冲防截断
语音合成 (TTS)	Omni 内置流式 TTS	EdgeTTS (微软 Edge 接口)	音色更自然，解耦了 LLM 与 TTS

2. 计算与图像加速 (硬核性能)

维度	原版代码 (Temp)	当前服务器 (Day 22)	优化价值
推理引擎	PyTorch (原生)	TensorRT (FP16/INT8)	300%+ 推理加速，显存占用减半
图像编解码	OpenCV (`imencode/decode`)	PyTurboJPEG (libjpeg-turbo)	2-3 倍编解码速度，降低 CPU 负载
矩阵运算	NumPy (CPU)	Numba (JIT 编译)	10-100 倍加速 (针对像素级操作)
模型加载	`.pt` (PyTorch 权重)	`.engine` (TensorRT 引擎)	针对 RTX 3090 硬件级优化
并发控制	无限制 (易 OOM)	GPU Semaphore (信号量)	智能管控并发槽位，永不爆显存

3. 系统架构与稳定性

代码解耦：
- 原版：app_main.py 是一个 1300+ 行的巨型文件，混合了 Web、AI、ASR、CV 所有逻辑。
- 当前：AI 逻辑拆分为 ai_voice_pipeline.py，模型管理拆分为 models.py，ASR/VAD 均为独立模块。
依赖精简：
- 移除了庞大的 DashScope SDK 依赖，改用轻量级官方 SDK。
健壮性：
- 新增了 Server-Side VAD，即使终端只传回来原始音频，服务器也能精准切分语音，彻底解决了“AI 抢话”或“听不清”的问题。

总结

原代码是一个基于云服务 API 快速搭建的原型验证 (PoC) 系统。现在的服务器是一个生产级 (Production-Ready) 的高性能计算节点，充分榨干了本地 RTX 3090 的每一滴性能。