分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-10-11 合作期刊: 《计算机应用研究》
摘要: 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。提出的方法通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类。进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势。最后,在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了本文方法的准确性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-07-23 合作期刊: 《计算机应用研究》
摘要: 带有传感器的可穿戴式医疗设备不断生成大量数据,由于数据的复杂性,难以通过处理和分析大数据来找到有价值的决策信息。为了解决这个问题,提出了一种新的物联网体系结构,用于存储和处理医疗应用的可扩展传感器数据(大数据)。所提出的架构主要由两个子架构组成:Meta Fog重定向(MF-R)架构和AWS密钥管理机制。MF-R架构使用Apache Pig和Apache HBase等大数据技术来收集和存储不同传感器设备生成的传感器数据,并利用卡尔曼滤波消除噪声。AWS密钥管理机制使用密钥管理方案,目的是保护云中的数据,防止未经授权的访问。当数据存储在云中时,所提出的系统能够使用随机梯度下降算法和逻辑回归来开发心脏病的预测模型。仿真实验表明,与其他几种算法相比,提出的算法具有更小的误差,且在吞吐量、准确度等方面具有一定的优越性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-24 合作期刊: 《计算机应用研究》
摘要: 针对人体动作识别中传统方法在分类决策方面存在问题和缺陷,提出了一种新颖的基于深度神经网络(DNN)和遗传算法(GA)合并算法的非线性分类决策方法。首先,提出的合并算法在整个训练集合上对特征提取器进行组合,进而组合成不同的两个独立网络;再利用DNN对两个独立网络进行初始化,进一步利用GA对两个网络进行合并。然后将网络的偏差和权重表示为每层网络间的一个矩阵;最后,利用DNN对网络的偏差和权重进行训练,并在合并过程中将矩阵中的每一行当作一个染色体。实验采用了标准MNIST数据集对提出算法的性能进行评估。评估结果显示实验过程中的交叉和突变操作增加了神经元节点,提高了识别性能,并且弱化了不相关和相关神经元节点。因此,提出算法的错误率更低,网络性能更优异。