Senko 是一个超高速且高精度的开源说话人分离(speaker diarization)项目,采用最新算法和多核CPU/GPU加速,1小时音频仅需5秒处理时间(RTX 4090),速度远超Pyannote等主流方案。 它支持多平台(Linux、macOS、WSL),轻松集成到你的音频分析和识别流程中,适合科研和工程应用。 主要功能: - 超高速说话人分离,RTX 4090上1小时音频5秒完成处理; - 高精度分离效果,VoxConverse、AISHELL-4等数据集表现优异; - 支持GPU加速与多核CPU并行,兼顾性能和效率; - 先进的VAD(语音活动检测)和特征提取模块,提升整体准确率; - 简单Python接口,方便调用与结果保存(JSON、RTTM格式); - 兼容多种硬件环境,支持NVIDIA CUDA和macOS CPU执行。