ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2018
1

按主题分类

计算机科学的集成理论
1

按作者

按机构

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 新疆财经大学计算机科学与工程学院

1. ChinaXiv:201810.00040
下载全文

维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-10-11 合作期刊: 《计算机应用研究》

如先姑力·阿布都热西提亚森·艾则孜郭文强

摘要：随着新疆地区网络的建设发展，产生了大量维吾尔语网页。为了构建健康网络环境，提出了一种结合n-gram统计模型和类不平衡支持向量机（SVM）分类器的维语文本过滤方法。首先，将网页文本进行预处理操作，通过n-gram统计模型来初步提取词干；然后，对词干进行语义分析，将具有相似含义的词干聚合为一类，以此降低词干维度；最后，在传统SVM中引入一个控制超平面之间距离的参数，构建一种类不平衡SVM，使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明，该方法能够准确分类出不良文本，且具有较短的分类时间。

点击量 1788 下载量 1031 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募预印本评审专家许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心