ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2024
1

按主题分类

计算机科学技术其他学科
1

按作者

杨亦凡
1

按机构

天津大学
1

当前资源共 1条

隐藏摘要

点击量

时间

下载量

您选择的条件: 杨亦凡

1. ChinaXiv:202401.00020
下载全文

轻量级端到端语音识别系统的实现及优化

分类：计算机科学 >> 计算机科学技术其他学科提交时间： 2024-01-04

杨亦凡

摘要：神经网络传感器（Neural Transducer）和连接时序分类（Connectionist Temporal Classification，CTC）是流行的端到端自动语音识别系统。由于它们的帧同步（Frame-synchronous）设计，空白（Blank）符号被引人以解决声学帧输人序列和输出标签序列之间的长度不匹配问题，这可能会带来冗余的计算。先前的研究通过丢弃联合训练的 CTC 所预测的空白帧来加速神经网络传感器的训练和推理。然而，这并不能保证联合训练的 CTC 能够最大限度地提高空白符号的占比。本文提出了两种新颖的正则化方法，通过约束 CTC 非空白符号的自循环（Self-loop），显式地鼓励 CTC 标记更多的空白符号，使得神经网络传感器获得更大程度的加速。在 LibriSpeech 语料库上的实验表明，本文提出的方法在不牺牲性能的前提下，将神经网络传感器的推理速度提高了 4 倍。此外，当神经网络传感器结合外部语言模型进行解码时，能够获得更大的性能提升。值得注意的是，本文提出的正则化方法能够让神经网络传感器的跳帧率逼近理论极限，这是首个探索几乎不含空白符号的神经网络传感器可行性的工作。

通过

点击量 406 下载量 93 评论

轻量级端到端语音识别系统的实现及优化