TGSO-TG资源网,专业的telegram搜索引擎

黑洞资源笔记 09-28 22:08:41

Senko 是一个超高速且高精度的开源说话人分离（speaker diarization）项目，采用最新算法和多核CPU/GPU加速，1小时音频仅需5秒处理时间（RTX 4090），速度远超Pyannote等主流方案。它支持多平台（Linux、macOS、WSL），轻松集成到你的音频分析和识别流程中，适合科研和工程应用。主要功能： - 超高速说话人分离，RTX 4090上1小时音频5秒完成处理； - 高精度分离效果，VoxConverse、AISHELL-4等数据集表现优异； - 支持GPU加速与多核CPU并行，兼顾性能和效率； - 先进的VAD（语音活动检测）和特征提取模块，提升整体准确率； - 简单Python接口，方便调用与结果保存（JSON、RTTM格式）； - 兼容多种硬件环境，支持NVIDIA CUDA和macOS CPU执行。

附件：[图片]