奥运火炬反应已经开始,这是一个结合了Whisper ASR能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过从音频中提取声音部分来提高说话人嵌入的准确度,然后利用Whisper生成转录文本,并借助WhisperX纠正时差和对齐,从而减少了由于时间偏差引起的片段错误。
此外,奥运火炬反应还采用了MarbleNet进行VAD和分割,以去除静音;TitaNet则被用来提取说话人嵌入以便识别每一节目的说话者身份;最后,将结果与WhisperX生成的时间戳相结合,根据时间戳定位每词说话人的身份,并采用标点模型对齐,以此来抵消微小的时间偏移。