ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2018
1

按主题分类

计算机科学的集成理论
1

按作者

按机构

华南理工大学电子与信息学院
1

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 史景伦

1. ChinaXiv:201811.00195
下载全文

基于深度双向模型和特征融合的视频转文字研究

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-11-29 合作期刊: 《计算机应用研究》

宁培阳史景伦张荣锋邱威

摘要：自动生成视频的自然语言描述，是一个非常具有挑战性的研究热点。基于深度BLSTM模型和CNNs特征的方法，能够学习到视频序列的全局时空关联信息。针对视频转文字时面临的准确率低以及计算复杂度高的问题，提出了深度BMGU模型，从而在保持深度BLSTM模型结构优势的同时提高计算效率；还将原始视频帧的CNN特征，与经过Haar特征预处理后的视频的CNNs特征进行后期融合，从而增加了训练特征的多样性，进而提升了视频转自然语言的实验效果。在M-VAD和MPII-MD数据集中，相对原S2VT模型，所提方法分别将METEOR分数从6.7及7.1提高到8.0和8.3。结果表明所提方法有效地改善了原S2VT模型的准确率和语言描述效果。

点击量 840 下载量 439 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募志愿者许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心