多模态音频生成与编辑的统一框架,用“思考链”推理驱动音频创作 从视频、文本、音频等任意模态生成或编辑音频;实现视频到音频的顶尖性能;交互式目标音频编辑,支持点击视觉对象或使用文本指令细化声音 ThinkSound | #框架