分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 特征选择是大数据集预处理的重要方法,能够使后续的数据分析与处理更加高效准确。提出了一种基于遗传算法的大数据特征选择算法。该算法首先对各维度的特征进行评估,根据每个特征在同类最近邻和异类最近邻上的差异度调整其权重,基于特征权重引导遗传算法的搜索,以提升算法的搜索能力和获取特征的准确性;然后结合特征权重计算特征的适应度,以适应度作为评价指标,启动遗传算法获取最优的特征子集,并最终实现高效准确的大数据特征选择。通过实验分析发现,该算法能够有效减小分类特征数,并提升特征分类准确率。
分类: 核科学技术 >> 核科学技术其他学科 提交时间: 2024-05-31
摘要: 随着机器学习在中子-伽马(n-γ)甄别中的广泛应用,脉冲波形甄别中的特征子集选择成为一个值得关注的问题。经验方法、Random Forest分类和Logistic回归特征选择算法较为全面地完善了特征子集选择方法,核主成分分析(KPCA)则将特征子集进一步降维。实验结果表明,特征选择算法在微弱的核信号中表现不佳,错误率均达30%以上。经验方法中的特征子集选取范围则至关重要,特征子集“1-62”的错误率达到49.096%,远高于来自脉冲尾部的特征子集约1%的错误率。最优特征子集与尾积分对应的采样点不完全重合,但差异不大,尾积分对应的采样点可近似为最优特征子集。通过研究目前具有代表性的Random Forest分类、Logistic回归等特征选择算法和细致的经验方法,论文结果具有普适性,为特征子集的选择提供了进一步的理论支持。