ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2018
2

按主题分类

计算机科学的集成理论
2

按作者

按机构

当前资源共 2条

隐藏摘要

点击量

时间

下载量

您选择的条件: 郭文强

1. ChinaXiv:201810.00040
下载全文

维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-10-11 合作期刊: 《计算机应用研究》

如先姑力·阿布都热西提亚森·艾则孜郭文强

摘要：随着新疆地区网络的建设发展，产生了大量维吾尔语网页。为了构建健康网络环境，提出了一种结合n-gram统计模型和类不平衡支持向量机（SVM）分类器的维语文本过滤方法。首先，将网页文本进行预处理操作，通过n-gram统计模型来初步提取词干；然后，对词干进行语义分析，将具有相似含义的词干聚合为一类，以此降低词干维度；最后，在传统SVM中引入一个控制超平面之间距离的参数，构建一种类不平衡SVM，使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明，该方法能够准确分类出不良文本，且具有较短的分类时间。

点击量 1756 下载量 1006 评论
2. ChinaXiv:201805.00283
下载全文

约束条件下BN参数最大熵模型扩展学习算法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-20 合作期刊: 《计算机应用研究》

郭文强李然侯勇严高文强

摘要：在很多智能系统的参数建模时，用户往往面对建模样本稀少的困境。针对在小数据集条件下贝叶斯网络（BN）参数建模的问题，提出了一种约束数据最大熵BN参数学习算法（CDME）。首先利用小数据集估算BN参数，随后把定性的专家经验转换为不等式约束，并利用Bootstrap算法生成满足约束的一组参数候选集，再根据信息最大熵进行加权计算出BN参数。实验结果表明，当数据量充分时，CDME参数学习算法与经典的MLE算法的学习精度近似，表明了算法的正确性；在小数据集条件下，利用CDME算法，可以对BN进行参数建模，学习精度优于MLE算法和QMAP算法。CDME算法在实际故障诊断样本数据相对稀缺的条件下，获取了诊断BN模型参数，在此基础上完成的诊断推理结果也印证了算法的有效性，为小数据集条件下的参数建模提供了一条新途径。

点击量 1213 下载量 685 评论

维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法

约束条件下BN参数最大熵模型扩展学习算法