您当前的位置:首页 > 论文浏览

1. chinaXiv:201901.00044 [pdf]

基于句子跨度的哈萨克语句法分析研究

柴伟; 古丽拉·阿东别克
分类: 计算机科学 >> 计算机科学的集成理论

由于目前哈萨克语句法分析准确率较低并缺乏基于神经网络的哈萨克语句法分析的相关研究,针对哈萨克语短语结构的句法分析,使用基于移进-归约的方法,但采用在栈中存储句子跨度而不是部分树结构,从而在进行句法树解析时不需要对句法树进行二叉化。该研究在句子特征提取时使用双向LSTM对句子跨度特征进行提取,得到句子跨度在整个句子上下文中信息,再使用多层感知机对句法分析模型进行训练,最后在解码时使用动态规划选取最优句法分析结果;最终使得哈萨克语短语句法分析准确率达到了76.92%。研究成果对哈萨克语句法分析准确率有了进一步的提高并为后续的哈萨克语机器翻译及语义分析奠定良好的基础。

提交时间: 2019-01-03 来自合作期刊:《计算机应用研究》 点击量57下载量33 评论 0

2. chinaXiv:201812.00120 [pdf]

一种基于性格的微博情感分析模型PLSTM

袁婷婷; 杨文忠; 仲丽君; 张志豪; 向进勇
分类: 计算机科学 >> 计算机科学的集成理论

不同性格的用户所具有的语言表达方式不尽相同,现有的情感分析工作很少考虑到用户的性格,针对此问题,提出一种基于性格的微博情感分析模型PLSTM。该模型首先采用性格识别规则将微博文本分为五个性格集合和一个通用集合,其次针对每种性格文本集合分别训练出一个情感分类器,最后对六个基本情感分类器进行融合,得出最终的情感极性。实验结果显示PLSTM方法的F1值可以达到96.95%,表明PLSTM比起以前常用的基准情感分析模型在准确率、召回率、F1值上都有较大提高。

提交时间: 2018-12-13 来自合作期刊:《计算机应用研究》 点击量60下载量36 评论 0

3. chinaXiv:201810.00059 [pdf]

维吾尔文情感分类特征建设研究

热西旦木·吐尔洪太; 吾守尔·斯拉木
分类: 计算机科学 >> 计算机科学的集成理论

由于目前缺乏维吾尔文情感分类特征表示方面的系统性研究,以传统n-gram特征为基础,按不同规模从维吾尔文情感标注语料库中提取了新特征及其组合特征,基于支持向量机(SVM)分类器对维吾尔文情感语料库进行了正负情感分类。实验结果表明,所提取的基本特征中unigram特征的分类效率最佳;unigram特征与词组特征的组合可以进一步提高分类效率,其最佳分类效果比unigram特征的分类效果提高了1.78%。首次在统一标注数据集上对不同特征的分类性能进行了综合评价,研究成果可以为今后的维吾尔文情感分类研究提供指导。

提交时间: 2018-10-11 来自合作期刊:《计算机应用研究》 点击量82下载量55 评论 0

4. chinaXiv:201808.00093 [pdf]

基于类别信息和特征熵的文本特征权重计算

阿力木江·艾沙; 殷晓雨; 库尔班·吾布力; 李喆
分类: 计算机科学 >> 计算机科学的集成理论

文本向量化是文本分类的基础,特征权重是直接影响文本向量表示质量的重要因素之一。基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F1值。

提交时间: 2018-08-13 来自合作期刊:《计算机应用研究》 点击量95下载量69 评论 0

5. chinaXiv:201805.00368 [pdf]

维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法

如先姑力·阿布都热西提; 亚森·艾则孜; 艾山·吾买尔; 阿力木江·艾沙
分类: 计算机科学 >> 计算机科学的集成理论

针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法。首先,将论坛文本进行预处理以删除无用词,并基于N-gram 统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本。在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性。

提交时间: 2018-05-18 来自合作期刊:《计算机应用研究》 点击量179下载量106 评论 0

6. chinaXiv:201804.02180 [pdf]

基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法

亚森·艾则孜; 艾山·吾买尔; 阿力木江·艾沙
分类: 计算机科学 >> 计算机科学的集成理论

针对以维吾尔语书写的文档间的相似性计算及剽窃检测问题,提出了一种基于内容的维吾尔语剽窃检测(U-PD)方法。首先,通过预处理阶段对维吾尔语文本进行分词、删除停止词、提取词干和同义词替换,其中提取词干是基于N-gram 统计模型实现;然后,通过BKDRhash算法计算每个文本块的hash值并构建整个文档的hash指纹信息;最后,根据hash指纹信息,基于RKR-GST匹配算法在文档级、段落级和句子级将文档与文档库进行匹配,获得文档相似度,以此实现剽窃检测。通过在维吾尔语文档中的实验评估表明,提出的方法能够准确检测出剽窃文档,具有可行性和有效性。

提交时间: 2018-04-17 来自合作期刊:《计算机应用研究》 点击量164下载量107 评论 0

  [1 页/ 6 条记录]