分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2020-09-28 合作期刊: 《计算机应用研究》
摘要: 针对传统因果关系算法难以准确分析含大量噪声的非线性数据的问题进行了研究,提出基于最大信息传递熵的因果关系建模算法。首先,利用最大信息系数对非线性数据的时序趋势间的关联度进行检测,弱化噪声对变量间相关性的影响;然后根据筛选因子剔除弱相关变量,并通过随机经验估值计算强关联变量间的传递熵,以减少传递熵的计算量;最后,传递熵确定因果关系方向,形成支持链路溯源的单向因果网络。利用经典化工过程数据集对该算法进行测试分析,实验结果表明,相比于现有因果关系建模算法,该算法可定位异常变量,对12维以上的高维数据建模的稳定性高于85%,因果关系的准确率可达83.33%,实际建模效果优于对比算法,可用于工业控制系统异常检测定位。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 针对AdaBoost。M2算法在解决多类不平衡协议流量的分类问题时存在不足,提出一种适用于因特网协议流量多类不平衡分类的集成学习算法RBWS-ADAM2,本算法在AdaBoost。M2每次迭代过程中,设计了基于权重的随机平衡重采样策略对训练数据进行预处理,该策略利用随机设置采样平衡点的重采样方式来更改多数类和少数类的样本数目占比,以构建多个具有差异性的训练集,并将样本权重作为样本筛选的依据,尽可能保留高权重样本,以加强对此类样本的学习。在国际公开的协议流量数据集上将RBWS-ADAM2算法与其他类似算法进行实验比较表明,相比于其他算法,该算法不仅对部分少数类的F-measure有较大提升,更有效提高了集成分类器的总体G-mean和总体平均F-measure,明显增强了集成分类器的整体性能。