分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-18 合作期刊: 《计算机应用研究》
摘要: 合成少数类过采样技术(SMOTE)是解决类不平衡问题的有效方法之一。但是,SMOTE的线性插值机制将合成样本限制在原始样本的连线上,导致新样本缺乏多样性,并且这条连线穿过多数类区域时可能会生成噪声样本。针对上述问题,提出一种带有超长方体约束的少数类样本生成机制。该机制使用超长方体作为新样本的生成区域来代替线性插值,以增加合成样本与原始样本的差异性。并通过检测超长方体内是否存在多数类样本来决定是否修正此超长方体,从而防止新合成样本落入多数类区域内。使用所提机制替换线性插值,并集成在三种过采样方法SMOTE、Borderline-SMOTE 和 ADASYN中,然后在KEEL的11个标准数据集上进行了实验评估。结果表明,相比于原始方法,集成后的方法能够帮助分类器取得更高的F1值和相当的G-mean。这说明超长方体生成机制能够显著改善分类器对少数类样本的识别能力,并且能够兼顾到多数类样本。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-03 合作期刊: 《计算机应用研究》
摘要: 针对传统协同过滤算法所面临的稀疏性及预测准确度不高的问题,提出一种基于受限玻尔兹曼机与加权Slope One的混合推荐算法。首先通过受限玻尔兹曼机对评分矩阵的初步填充,缓解数据的稀疏性问题;然后通过一种混合项目相似度计算方法,引入项目属性信息;最后通过加权Slope One算法的二次预测,提升推荐效果。在MovieLens100K数据集上的实验表明,两种算法的结合提高了推荐的准确度。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-10-11 合作期刊: 《计算机应用研究》
摘要: 针对双向长短时记忆神经(BiLSTM)模型训练时间长、不能充分学习文本上下文信息的问题,提出一种基于BiGRU-Attention的文本情感分类模型。首先,利用双向门控循环(BiGRU)神经网络层对文本深层次的信息进行特征提取;其次,利用注意力机制(attention)层对提取的文本深层次信息分配相应的权重;最后,将不同权重的文本特征信息放入softmax函数层进行文本情感极性分类。实验结果表明,所提的神经网络模型在IMDB数据集上的准确率是90.54%,损失率是0.2430,时间代价是1100 s,验证了 BiGRU-Attention模型的有效性。