分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2020-09-28 合作期刊: 《计算机应用研究》
摘要: 针对普通话语音识别任务中的多口音的识别问题,提出了链接时序主义(connectionist temporal classification,CTC)和多头注意力(MultiHead attention)的混合端到端模型,同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深,混合模型在带口音的数据集上表现出了更好的学习能力,同时训练一个深度达到48层的编码器-解码器架构的网络,生成的模型表现了超过之前所有端到端模型,在数据堂开源的200h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了本文提出的端到端模型超过一般端到端模型的识别率,在解决带口音的普通话识别上有一定的先进性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-05-10 合作期刊: 《计算机应用研究》
摘要: 在音频事件检测任务中,目标音频易受背景噪声等因素的干扰,并且其在音频信号流中存在的比例不高,针对这些问题,提出一种多层次注意力机制一维DenseNet(dense convolutional network)音频事件检测模型。首先,使用一维DenseNet模型进行帧级检测能有效地检测音频事件发生的开始和结束时间;其次,在一维DenseNet模型中引入多层次注意力机制,这使得不同模块的感知特性随着网络层数的加深而自适应地变化。因此,模型可以在不同的网络层次自动选择和关注重要的目标帧而抑制不相关的背景帧。在DCASE 2017任务2的开发数据集上的实验表明,该方法的整体性能较传统的深度学习方法有进一步提高。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-24 合作期刊: 《计算机应用研究》
摘要: 针对推荐系统中因新项目的加入而造成的冷启动问题,在矩阵分解模型的基础上提出了融合项目图片相似度和类别属性的协同过滤推荐模型USPTMF-CFIA。首先,采用基于用户偏好和时间权重的矩阵分解模型,对评分缺失项进行预测填充;然后,利用VGG16神经网络提取项目图片特征,并结合类别属性计算新项目与历史项目的相似度,得到近邻项目;最后,根据新项目与近邻项目之间的相似度预测用户对新项目的评分,将评分高的前N个项目推荐给对应用户;通过在GroupLens提供的数据集上的实验证明,该模型的推荐准确率比MAP-BPR模型高0.006~0.015,比传统协同过滤模型高0.02~0.028,比没融合图片相似度的USPTMF-CFA模型高0.001~0.003,比ACMF模型高0.001~0.002。