您当前的位置:首页 > 论文浏览
您选择的条件: 亚森·艾则孜(4)

1. chinaXiv:201810.00040 [pdf]

维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法

如先姑力·阿布都热西提; 亚森·艾则孜; 郭文强
分类: 计算机科学 >> 计算机科学的集成理论

随着新疆地区网络的建设发展,产生了大量维吾尔语网页。为了构建健康网络环境,提出了一种结合n-gram统计模型和类不平衡支持向量机(SVM)分类器的维语文本过滤方法。首先,将网页文本进行预处理操作,通过n-gram统计模型来初步提取词干;然后,对词干进行语义分析,将具有相似含义的词干聚合为一类,以此降低词干维度;最后,在传统SVM中引入一个控制超平面之间距离的参数,构建一种类不平衡SVM,使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明,该方法能够准确分类出不良文本,且具有较短的分类时间。

提交时间: 2018-10-11 来自合作期刊:《计算机应用研究》 点击量54下载量39 评论 0

2. chinaXiv:201805.00467 [pdf]

利用N-gram和语义分析的维吾尔语文本相似性检测方法

张莹; 亚森·艾则孜; 吴顺祥
分类: 计算机科学 >> 计算机科学的集成理论

目前自然语言文本相似度估计大多是针对英语等一些大类语言,为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。首先,根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,作为文本模型。然后,采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。

提交时间: 2018-05-24 来自合作期刊:《计算机应用研究》 点击量120下载量73 评论 0

3. chinaXiv:201805.00368 [pdf]

维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法

如先姑力·阿布都热西提; 亚森·艾则孜; 艾山·吾买尔; 阿力木江·艾沙
分类: 计算机科学 >> 计算机科学的集成理论

针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法。首先,将论坛文本进行预处理以删除无用词,并基于N-gram 统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本。在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性。

提交时间: 2018-05-18 来自合作期刊:《计算机应用研究》 点击量118下载量68 评论 0

4. chinaXiv:201804.02180 [pdf]

基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法

亚森·艾则孜; 艾山·吾买尔; 阿力木江·艾沙
分类: 计算机科学 >> 计算机科学的集成理论

针对以维吾尔语书写的文档间的相似性计算及剽窃检测问题,提出了一种基于内容的维吾尔语剽窃检测(U-PD)方法。首先,通过预处理阶段对维吾尔语文本进行分词、删除停止词、提取词干和同义词替换,其中提取词干是基于N-gram 统计模型实现;然后,通过BKDRhash算法计算每个文本块的hash值并构建整个文档的hash指纹信息;最后,根据hash指纹信息,基于RKR-GST匹配算法在文档级、段落级和句子级将文档与文档库进行匹配,获得文档相似度,以此实现剽窃检测。通过在维吾尔语文档中的实验评估表明,提出的方法能够准确检测出剽窃文档,具有可行性和有效性。

提交时间: 2018-04-17 来自合作期刊:《计算机应用研究》 点击量115下载量79 评论 0

  [1 页/ 4 条记录]