ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2019
1
2018
4

按主题分类

计算机科学的集成理论
5

按作者

按机构

当前资源共 5条

隐藏摘要

点击量

时间

下载量

您选择的条件: 新疆警察学院信息安全工程系

1. ChinaXiv:201904.00018
下载全文

利用稀疏语义结合双层深度卷积神经网络的敏感图像检测方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2019-04-01 合作期刊: 《计算机应用研究》

如先姑力·阿布都热西提亚森·艾则孜孙国梓

摘要：互联网技术的飞速发展导致敏感内容图像由原先基本隐蔽的内容交换变为海量的数据共享, 传统基于图像特征提取的敏感内容检测方法不再适用。针对上述难点，提出基于稀疏语义和双层深度卷积神经网络相结合的敏感内容检测方法。上层网络首先进行训练样本的预处理，并通过构造图像的稀疏语义表示作为神经网络的输入，而下层网络则进一步考虑第三方管控机制（如政府代理等），提出针对特定群体的敏感内容图像检测方法。与现有常用敏感内容图像检测方法相比，提出的检测方法可有效降低训练样本数量，且检测精度比传统图像检测方法（如基于视觉词袋方法等）提升7%以上。

点击量 2217 下载量 1154 评论 0
2. ChinaXiv:201810.00040
下载全文

维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-10-11 合作期刊: 《计算机应用研究》

如先姑力·阿布都热西提亚森·艾则孜郭文强

摘要：随着新疆地区网络的建设发展，产生了大量维吾尔语网页。为了构建健康网络环境，提出了一种结合n-gram统计模型和类不平衡支持向量机（SVM）分类器的维语文本过滤方法。首先，将网页文本进行预处理操作，通过n-gram统计模型来初步提取词干；然后，对词干进行语义分析，将具有相似含义的词干聚合为一类，以此降低词干维度；最后，在传统SVM中引入一个控制超平面之间距离的参数，构建一种类不平衡SVM，使其能够很好地分类具有非线性不可分和不平衡性的维吾尔语文本。实验结果表明，该方法能够准确分类出不良文本，且具有较短的分类时间。

点击量 1850 下载量 1060 评论 0
3. ChinaXiv:201805.00467
下载全文

利用N-gram和语义分析的维吾尔语文本相似性检测方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-24 合作期刊: 《计算机应用研究》

张莹亚森·艾则孜吴顺祥

摘要：目前自然语言文本相似度估计大多是针对英语等一些大类语言，为了实现维吾尔语文本的相似性检测，提出一种基于N-gram和语义分析的相似性检测方法。首先，根据维吾尔语单词特征，采用了N-gram统计模型来获得词语，并根据词语在文本中的出现频率来构建词语-文本关系矩阵，作为文本模型。然后，采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联，以此解决维吾尔语词义模糊的问题，并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验，结果表明该方法能够准确有效地检测出相似性。

点击量 2223 下载量 1345 评论 0
4. ChinaXiv:201805.00368
下载全文

维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-18 合作期刊: 《计算机应用研究》

如先姑力·阿布都热西提亚森·艾则孜艾山·吾买尔阿力木江·艾沙

摘要：针对维吾尔文网页论坛中的文本过滤问题，提出一种基于术语选择和Rocchio分类器的文本过滤方法。首先，将论坛文本进行预处理以删除无用词，并基于N-gram 统计模型进行词干(术语)提取；然后，提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS)，对初始术语集合进行降维，获得精简术语集；最后，将文本特征术语作为输入，通过Rocchio分类器进行分类，以此过滤掉论坛中的不良文本。在相关数据集上的实验结果表明，提出的方法能够准确地识别出不良类型文本，具有有效性。

点击量 2065 下载量 1187 评论 0
5. ChinaXiv:201804.02180
下载全文

基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-04-17 合作期刊: 《计算机应用研究》

亚森·艾则孜艾山·吾买尔阿力木江·艾沙

摘要：针对以维吾尔语书写的文档间的相似性计算及剽窃检测问题，提出了一种基于内容的维吾尔语剽窃检测(U-PD)方法。首先，通过预处理阶段对维吾尔语文本进行分词、删除停止词、提取词干和同义词替换，其中提取词干是基于N-gram 统计模型实现；然后，通过BKDRhash算法计算每个文本块的hash值并构建整个文档的hash指纹信息；最后，根据hash指纹信息，基于RKR-GST匹配算法在文档级、段落级和句子级将文档与文档库进行匹配，获得文档相似度，以此实现剽窃检测。通过在维吾尔语文档中的实验评估表明，提出的方法能够准确检测出剽窃文档，具有可行性和有效性。

点击量 1955 下载量 1117 评论 0

利用稀疏语义结合双层深度卷积神经网络的敏感图像检测方法

维语网页中n-gram模型结合类不平衡SVM的不良文本过滤方法

利用N-gram和语义分析的维吾尔语文本相似性检测方法

维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法

基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法