分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 同步定位与构图技术(simultaneous localization and mapping,SLAM)指机器人在构建环境地图的同时对自己的运动状态进行估计,是实现未知环境下机器人全自主运动的核心。为了对SLAM技术有更为全面的把握,在回顾过去三十年里视觉SLAM技术发展历程基础上,详细分析了视觉SLAM问题的本质与求解的复杂性。重点对在提高位姿估计精度、构建全局一致地图与提升算法求解效率上的最新研究成果进行了介绍,并对当前代表性的算法实现方案进行了分析与比较。针对未来大尺度环境、全生命周期应用需求,对现有算法框架的不足与最新研究趋势进行了归纳总结。最后,探讨了深度学习技术与视觉SLAM问题求解的关联性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-09-12 合作期刊: 《计算机应用研究》
摘要: 针对现有人体动作识别方法需输入固定长度的视频段、未充分利用时空信息等问题,提出一种基于时空金字塔和注意力机制相结合的深度神经网络模型,将包含时空金字塔的3D-CNN和添加时空注意力机制的LSTM模型相结合,实现了对视频段的多尺度处理和对动作的复杂时空信息的充分利用。以RGB图像和光流场作为空域和时域的输入,以融合金字塔池化层的运动和外观特征后的融合特征作为融合域的输入,最后采用决策融合策略获得最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了94.2%和70.5%的识别准确率。实验结果表明,改进的网络模型在基于视频的人体动作识别任务上获得了较高的识别准确率。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 针对现有的动作识别算法的特征提取复杂、识别率低等问题,提出了基于批归一化变换(batch normalization)与GoogLeNet网络模型相结合的网络结构,将图像分类领域的批归一化思想应用到动作识别领域中进行训练算法改进,实现了对视频动作训练样本的网络输入进行微批量(mini-batch)归一化处理。该方法以RGB图像作为空间网络的输入,光流场作为时间网络输入,然后融合时空网络得到最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了93.50%和68.32%的准确率。实验结果表明,改进的网络架构在视频人体动作识别问题上具有较高的识别准确率。