按提交时间
按主题分类
按作者
按机构
您选择的条件: 杨亦凡
  • 轻量级端到端语音识别系统的实现及优化

    分类: 计算机科学 >> 计算机科学技术其他学科 提交时间: 2024-01-04

    摘要: 神经网络传感器 (Neural Transducer)和连接时序分类(Connectionist Temporal Classification,CTC)是流行的端到端自动语音识别系统。由于它们的帧同步 (Frame-synchronous)设计,空白(Blank)符号被引人以解决声学帧输人序列和输出标签序列之间的长度不匹配问题,这可能会带来冗余的计算。先前的研究通过丢弃联合训练的 CTC 所预测的空白帧来加速神经网络传感器的训练和推理。然而,这并不能保证联合训练的 CTC 能够最大限度地提高空白符号的占比。本文提出了两种新颖的正则化方法,通过约束 CTC 非空白符号的自循环(Self-loop),显式地鼓励 CTC 标记更多的空白符号,使得神经网络传感器获得更大程度的加速。在 LibriSpeech 语料库上的实验表明,本文提出的方法在不牺牲性能的前提下,将神经网络传感器的推理速度提高了 4 倍。此外,当神经网络传感器结合外部语言模型进行解码时,能够获得更大的性能提升。值得注意的是,本文提出的正则化方法能够让神经网络传感器的跳帧率逼近理论极限,这是首个探索几乎不含空白符号的神经网络传感器可行性的工作。