分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 自动生成视频的自然语言描述,是一个非常具有挑战性的研究热点。基于深度BLSTM模型和CNNs特征的方法,能够学习到视频序列的全局时空关联信息。针对视频转文字时面临的准确率低以及计算复杂度高的问题,提出了深度BMGU模型,从而在保持深度BLSTM模型结构优势的同时提高计算效率;还将原始视频帧的CNN特征,与经过Haar特征预处理后的视频的CNNs特征进行后期融合,从而增加了训练特征的多样性,进而提升了视频转自然语言的实验效果。在M-VAD和MPII-MD数据集中,相对原S2VT模型,所提方法分别将METEOR分数从6.7及7.1提高到8.0和8.3。结果表明所提方法有效地改善了原S2VT模型的准确率和语言描述效果。