分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》
摘要: 传统的分类算法在对不平衡数据进行分类时,容易导致少数类被错分。为了提高少数类样本的分类准确度,提出了一种基于改进密度峰值聚类的采样算法IDP-SMOTE。首先,采用Box-Cox变换和#1;准则对密度峰值聚类算法进行改进,实现了聚类中心和离群点的自动判别;然后,将改进的密度峰值聚类算法与SMOTE升采样算法相结合,去除噪声数据,并基于少数类样本的局部密度和邻近距离,在子类的范围内合成采样数据。该算法有效避免了升采样导致的边界模糊,改善了类内不平衡及边界样本难以学习的问题,同时实现了自动聚类和重采样,防止了人为因素干扰。通过实验对比,验证了提出算法的有效性和自适应性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-08-13 合作期刊: 《计算机应用研究》
摘要: 处理不平衡数据分类时,传统支持向量机技术(SVM)对少数类样本识别率较低。鉴于SVM+技术能利用样本间隐藏信息的启发,提出了多任务学习的不平衡SVM+算法(MTL-IC-SVM+)。MTL-IC-SVM+基于SVM+将不平衡数据的分类表示为一个多任务的学习问题,并从纠正分类面的偏移出发,分别赋予多数类和少数类样本不同的错分惩罚因子,且设置少数类样本到分类面的距离大于多数类样本到分类面的距离。UCI数据集上的实验结果表明,MTL-IC-SVM+在不平衡数据分类问题上具有较高的分类精度。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 数据分布的不平衡性和数据特征的非线性增加了分类的困难,特别是难以识别不平衡数据中的少数类,从而影响整体的分类效果。针对该问题,结合KFDA(kernel fisher discriminant analysis)能有效提取样本非线性特征的特性和集成学习中Boosting算法的思想,提出了KFDA-Boosting算法。为了验证该算法对不平衡数据分类的有效性和优越性,以G-mean值、少数类的查准率与查全率作为分类效果的评价指标,选取了UCI中10个数据集测试KFDA-Boosting算法性能,并与支持向量机等六种分类算法进行对比实验。结果表明,对于不平衡数据分类,尤其是对不平衡度较大或呈非线性特征的数据,相比于其他分类算法,KFDA-Boosting算法能有效地识别少数类,并且在整体上具有显著的分类效果和较好的稳定性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-04-01 合作期刊: 《计算机应用研究》
摘要: 至今已经有许多不同的机器学习方法被提出来,而传统的机器学习方法无法有效解决大规模入侵数据的分类问题,为了解决大规模入侵数据的分类问题,提出的堆稀疏自编码的lightGBM(light gridient boosting model)二叉树算法。首先将类别标签分为五类,构造成二叉树结构,然后通过上采样方法解决数据分布的不平衡问题,以上处理可以将大规模的数据分解开来以便之后分开训练,再采用稀疏自编码器网络进行特征降维,采用该种降维方法可以保证在原始数据中抽取出更深层特征的基础上节省降维时间。最后通过lightGBM集成算法进行分类,而采用lightGBM模型相比其他模型可以在保证分类性能的情况下节省训练时间。实验利用NSL-KDD数据集测量了所提方法的准确率(accuracy)、精确率(precision)、召回率(recall)以及综合评价指标F1在五类分类上平均分别达到了87.42%,98.20%,91.31%,优于对比算法,且明显节省了运算时间。
分类: 医学、药学 >> 预防医学与公共卫生学 分类: 统计学 >> 生物与医学统计学 提交时间: 2024-05-06
摘要: 极端不平衡数据定义为自变量或因变量指标的取值呈现严重比例失衡的数据,例如病例-对照极度不平衡、疾病发病率极低、生存数据大量删失以及遗传位点为低频或罕见变异等。在此情境下,logistic回归模型、Cox比例风险模型等参数假设检验的经典统计量偏离正态分布,难以控制一类错误。近年来,随着超大型人群队列全基因组关联研究资源的日益共享与深度挖掘,高效准确处理独立或非独立样本极端不平衡数据的统计需求日益突出。为此,本文系统地进行了方法学概述。首先,综述常见经典统计量理论推导的原理;其次,阐述极端不平衡数据对统计量分布的影响;然后,介绍遗传统计学中常用的两种统计量校正方法:Firth校正和鞍点近似方法;最后,简介极端不平衡基因组学数据常用软件。本文为极端不平衡数据的统计分析提供理论参考和应用推荐。
分类: 统计学 >> 社会统计学 提交时间: 2023-12-04 合作期刊: 《智慧农业(中英文)》
摘要: [目的/意义]不同类型的小麦倒伏(根部倒伏、茎部倒伏)对产量和质量会产生不同影响。本研究旨在 通过无人机图像对小麦倒伏类型进行分类,并探究无人机飞行高度对分类性能的影响。[方法]研究设置3个无人 机飞行高度(15、45、91 m) 来获取小麦试验田的图像,并利用自动分割算法生成不同高度的数据集,提出一种 EfficientNetV2-C改进模型对其进行分类识别。模型通过引入CA(Coordinate Attention) 注意力机制来提升网络特 征提取能力,并结合CB-Focal Loss (ClassBalanced Focal Loss) 来解决数据不均衡对模型分类准确度的影响。 [结果和讨论]改进的EfficientNetV2-C表现最佳,平均准确率达到93.58%。对比未改进的4种机器学习分类模型 (支持向量机(Support Vector Machine,SVM)、K 最近邻(K Nearest Neighbor,KNN)、决策树(Decision Tree, DT) 和朴素贝叶斯(Naive Bayes,NB)) 与两种深度学习分类模型(ResNet101和EfficientNetV2),其中Efficient⁃ NetV2在各个高度下表现最优,平均准确率达到82.67%。无人机飞行高度对4种机器学习分类器性能无显著影响, 但随飞行高度上升,由于图像特征信息损失,深度学习模型的分类性能下降。[结论]改进的EfficientNetV2-C在 小麦倒伏类型检测方面取得了较高的准确率,为小麦倒伏预警和农作物管理提供了新的解决方案。