分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-10-11 合作期刊: 《计算机应用研究》
摘要: 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。提出的方法通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类。进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势。最后,在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了本文方法的准确性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-07-23 合作期刊: 《计算机应用研究》
摘要: 带有传感器的可穿戴式医疗设备不断生成大量数据,由于数据的复杂性,难以通过处理和分析大数据来找到有价值的决策信息。为了解决这个问题,提出了一种新的物联网体系结构,用于存储和处理医疗应用的可扩展传感器数据(大数据)。所提出的架构主要由两个子架构组成:Meta Fog重定向(MF-R)架构和AWS密钥管理机制。MF-R架构使用Apache Pig和Apache HBase等大数据技术来收集和存储不同传感器设备生成的传感器数据,并利用卡尔曼滤波消除噪声。AWS密钥管理机制使用密钥管理方案,目的是保护云中的数据,防止未经授权的访问。当数据存储在云中时,所提出的系统能够使用随机梯度下降算法和逻辑回归来开发心脏病的预测模型。仿真实验表明,与其他几种算法相比,提出的算法具有更小的误差,且在吞吐量、准确度等方面具有一定的优越性。