分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-18 合作期刊: 《计算机应用研究》
摘要: 随着绿色建筑和绿色生态城区经济激励机制基本形成,面对大量多维空间占用数据,“大数据绿色建筑”节能体系应运而生。然而大量多维的建筑数据却没有被充分利用,且传统空间占用检测模型分类精度还不够准确,模型时间复杂度较高。利用UCI占用检测数据集,在原始数据集上加入时间戳,使模型分类精度均获得提高,同时利用MCMR(最大相关最小冗余)方法进行特征选择,通过随机森林作为分类器验证分类效果,获取最优特征子集。且利用选取的特征子集构建占用检测模型,其中XGBoost模型与随机森林模型(RF)进行比对,分类精度较高,且时间复杂度更低。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 针对目前大部分钓鱼网站检测方法存在检测准确率低、误判率高等问题,提出了一种基于特征选择与集成学习的钓鱼网站检测方法。首先使用FSIGR算法进行特征选择,该算法结合过滤和封装模式的优点,从信息相关性和分类能力两个方面对特征进行综合度量,并采用前向递增后向递归剔除策略对特征进行选择,以分类精度作为评价指标对特征子集进行评价与选择,从而获取最优特征子集;然后使用选择后的最优特征子集基于随机森林集成学习分类算法进行训练。在UCI数据集上的实验表明,所提方法能够有效提高钓鱼网站检测的正确率,降低误判率,具有实际应用意义。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-17 合作期刊: 《计算机应用研究》
摘要: 特征选择是数据挖掘、机器学习和模式识别中始终面临的一个重要问题。针对类和特征分布不均时,传统信息增益在特征选择中存在的选择偏好问题,提出了一种基于信息增益率与随机森林的特征选择算法。该算法结合filter和wrapper模式的优点,首先从信息相关性和分类能力两个方面对特征进行综合度量,然后采用序列前向选择(sequential forward selection,SFS)策略对特征进行选择,并以分类精度作为评价指标对特征子集进行度量,从而获取最优特征子集。实验结果表明,本文算法不仅能够达到特征空间降维的效果,而且能够有效提高分类算法的分类性能和查全率。