ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

按主题分类

计算机科学的集成理论
3

按作者

按机构

武汉理工大学计算机科学与技术学院
3

当前资源共 3条

隐藏摘要

点击量

时间

下载量

您选择的条件: 胡燕

1. ChinaXiv:202009.00112
下载全文

混合CTC/attention架构的端到端带口音普通话识别

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2020-09-28 合作期刊: 《计算机应用研究》

杨威胡燕

摘要：针对普通话语音识别任务中的多口音的识别问题，提出了链接时序主义(connectionist temporal classification，CTC)和多头注意力(MultiHead attention)的混合端到端模型，同时采用多目标训练和联合解码的方法。实验分析发现随着混合架构中链接时序主义权重的降低和编码器层数的加深，混合模型在带口音的数据集上表现出了更好的学习能力，同时训练一个深度达到48层的编码器-解码器架构的网络，生成的模型表现了超过之前所有端到端模型，在数据堂开源的200h带口音数据集上达到了5.6%字错率和26.2%句错率。实验证明了本文提出的端到端模型超过一般端到端模型的识别率，在解决带口音的普通话识别上有一定的先进性。

点击量 1508 下载量 925 评论
2. ChinaXiv:201905.00038
下载全文

基于多层次注意力机制一维DenseNet的音频事件检测

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2019-05-10 合作期刊: 《计算机应用研究》

杨吕祥胡燕

摘要：在音频事件检测任务中，目标音频易受背景噪声等因素的干扰，并且其在音频信号流中存在的比例不高，针对这些问题，提出一种多层次注意力机制一维DenseNet(dense convolutional network)音频事件检测模型。首先，使用一维DenseNet模型进行帧级检测能有效地检测音频事件发生的开始和结束时间；其次，在一维DenseNet模型中引入多层次注意力机制，这使得不同模块的感知特性随着网络层数的加深而自适应地变化。因此，模型可以在不同的网络层次自动选择和关注重要的目标帧而抑制不相关的背景帧。在DCASE 2017任务2的开发数据集上的实验表明，该方法的整体性能较传统的深度学习方法有进一步提高。

点击量 1982 下载量 957 评论
3. ChinaXiv:201804.02367
下载全文

融合图片相似度缓解新项目冷启动问题的研究

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-04-24 合作期刊: 《计算机应用研究》

周强胡燕

摘要：针对推荐系统中因新项目的加入而造成的冷启动问题，在矩阵分解模型的基础上提出了融合项目图片相似度和类别属性的协同过滤推荐模型USPTMF-CFIA。首先，采用基于用户偏好和时间权重的矩阵分解模型，对评分缺失项进行预测填充；然后，利用VGG16神经网络提取项目图片特征，并结合类别属性计算新项目与历史项目的相似度，得到近邻项目；最后，根据新项目与近邻项目之间的相似度预测用户对新项目的评分，将评分高的前N个项目推荐给对应用户；通过在GroupLens提供的数据集上的实验证明，该模型的推荐准确率比MAP-BPR模型高0.006~0.015，比传统协同过滤模型高0.02~0.028，比没融合图片相似度的USPTMF-CFA模型高0.001~0.003，比ACMF模型高0.001~0.002。

点击量 1840 下载量 1053 评论

混合CTC/attention架构的端到端带口音普通话识别

基于多层次注意力机制一维DenseNet的音频事件检测

融合图片相似度缓解新项目冷启动问题的研究