45 lines
2.1 KiB
Markdown
45 lines
2.1 KiB
Markdown
## 服务器技术栈总结
|
||
|
||
基于代码分析,您的服务器采用了高性能 Python 异步架构,深度整合了最新的 AI 模型和硬件加速技术。以下是详细的技术栈清单:
|
||
|
||
- 核心框架
|
||
语言: Python 3.9+
|
||
Web 框架: FastAPI (高性能异步 Web 框架)
|
||
服务器: Uvicorn (基于 uvloop 的 ASGI 服务器)
|
||
通信协议:
|
||
WebSocket: 用于音频/视频流的实时双向传输 (websockets 库)
|
||
HTTP: 用于控制指令和状态查询
|
||
|
||
- 新一代 AI 交互管道 (Day 28+ 架构)
|
||
大语言模型 (LLM): GLM-4.6v-Flash (通过 zai-sdk 调用智谱 AI,支持多模态视觉理解)
|
||
语音识别 (ASR): SenseVoiceSmall (通过 funasr 本地部署,高精度中文识别)
|
||
语音活动检测 (VAD): Silero VAD (PyTorch 实现,含 300ms 环形缓冲,抗噪能力强)
|
||
语音合成 (TTS): EdgeTTS (微软 Edge 在线 TTS,免费且自然)
|
||
|
||
- 计算机视觉 (CV)
|
||
核心引擎: Ultralytics YOLO (YOLO11 / YOLOv8)
|
||
模型矩阵:
|
||
- 盲道导航: yolo11l-seg-blind.engine
|
||
- 室内导盲: yolo11l-seg-indoor14.engine (14类)
|
||
- 红绿灯: yolov8n.engine
|
||
任务类型: 目标检测 (Detection) + 语义分割 (Segmentation)
|
||
推理加速: TensorRT (NVIDIA 深度学习推理引擎,FP16半精度 + .engine 模型文件)
|
||
图像处理:
|
||
PyTurboJPEG: 基于 libjpeg-turbo 硬件加速的 JPEG 编解码 (比 OpenCV 快 2-3 倍)
|
||
OpenCV: 传统的图像处理与绘图
|
||
MediaPipe: 手势识别 (辅助功能)
|
||
|
||
- 高性能计算与并发
|
||
并行计算: CUDA (通过 PyTorch 调用 NVIDIA GPU)
|
||
数学加速: Numba (JIT 即时编译,加速 NumPy 矩阵运算)
|
||
并发模型:
|
||
AsyncIO: 处理高并发 WebSocket 连接
|
||
Threading: 处理阻塞式 I/O 任务
|
||
Semaphore: 限制 GPU 并发槽位 (默认 2-4 个)
|
||
|
||
- 关键依赖
|
||
PyTorch: 深度学习底座
|
||
NumPy: 科学计算
|
||
python-dotenv: 环境变量管理
|
||
|
||
这个架构充分利用了 RTX 3090 的算力 (TensorRT/CUDA),同时通过 AsyncIO 保证了网络层的高吞吐,是一套非常成熟且现代化的 AI 服务端方案。 |