分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 特征选择是大数据集预处理的重要方法,能够使后续的数据分析与处理更加高效准确。提出了一种基于遗传算法的大数据特征选择算法。该算法首先对各维度的特征进行评估,根据每个特征在同类最近邻和异类最近邻上的差异度调整其权重,基于特征权重引导遗传算法的搜索,以提升算法的搜索能力和获取特征的准确性;然后结合特征权重计算特征的适应度,以适应度作为评价指标,启动遗传算法获取最优的特征子集,并最终实现高效准确的大数据特征选择。通过实验分析发现,该算法能够有效减小分类特征数,并提升特征分类准确率。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 虚拟化系统的强隔离性质在为安全机制部署提供可靠环境的同时,也引入了语义鸿沟问题。针对现有研究普遍依赖的软件体系结构信息、数据结构和控制流容易被窜改,采用的检测算法在客户机状态识别方面效率较低等问题,设计了特征构造和窗口标记的方法对虚拟机数据进行预处理,以满足实施数据挖掘的必要条件,建立了基于特征选择的虚拟化系统语义鸿沟桥接模型,能够仅依赖硬件体系结构数据构建虚拟机执行模式并进行安全检测。实验结果表明,所设计的系统模型能够筛选出关键的虚拟机特征,并有效地识别出客户机异常行为,提高语义鸿沟的桥接效率,为处理语义鸿沟问题提供了一种可行方案。