Current Location:home > Browse

1. chinaXiv:201904.00061 [pdf]

基于多特征和深度神经网络的维吾尔文情感分类

买买提阿依甫; 吾守尔·斯拉木; 艾斯卡尔·艾木都拉; 杨文忠; 帕丽旦·木合塔尔
Subjects: Computer Science >> Integration Theory of Computer Science

针对传统机器学习的情感分类方法存在长距离依赖问题,深度学习存在忽略情感词库的弊端,提出了一种基于注意力机制与双向长短记忆网络和卷积神经网络模型相结合的维吾尔文情感分类方法。将多特征拼接向量作为双向长短记忆网络的输入捕获文本上下文信息,使用注意力机制和卷积网络获取文本隐藏情感特征信息,有效增强了对文本情感语义的捕获能力。实验结果表明,该方法在二分类和五分类情感数据集上的F1值相比于机器学习方法分别提高了5.59%,7.73%。

submitted time 2019-04-01 From cooperative journals:《计算机应用研究》 Hits521Downloads266 Comment 0

2. chinaXiv:201904.00064 [pdf]

多MapReduce作业协同下的大数据挖掘类算法资源效率优化

廖彬; 张陶; 于炯; 黄静莱; 国冰磊; 刘炎
Subjects: Computer Science >> Integration Theory of Computer Science

由于任意的MapReduce作业都需要独立的进行任务调度、资源分配等一系列复杂的操作,这使得同一算法协同的多个MapReduce作业之间,存在着大量的冗余磁盘I/O及资源重复申请操作,导致计算过程中资源利用效率低下。大数据挖掘类算法通常被切分成多个MapReduce Job协作完成,以ItemBased算法为例,对多MapReduce作业协同下的大数据挖掘算法存在的资源效率问题进行了分析,提出基于DistributedCache的ItemBased算法,利用DistributedCache将多个MapReduce Job之间的I/O数据进行缓存处理,打破作业之间独立性的缺陷,减少Map与Reduce任务之间的等待时延。实验结果表明,DistributedCache能够提高MapReduce作业的数据读取速度,利用DistributedCache重构后的算法极大地减少了Map与Reduce任务之间的等待时延,资源效率提高3倍以上。

submitted time 2019-04-01 From cooperative journals:《计算机应用研究》 Hits375Downloads210 Comment 0

3. chinaXiv:201901.00044 [pdf]

基于句子跨度的哈萨克语句法分析研究

柴伟; 古丽拉·阿东别克
Subjects: Computer Science >> Integration Theory of Computer Science

由于目前哈萨克语句法分析准确率较低并缺乏基于神经网络的哈萨克语句法分析的相关研究,针对哈萨克语短语结构的句法分析,使用基于移进-归约的方法,但采用在栈中存储句子跨度而不是部分树结构,从而在进行句法树解析时不需要对句法树进行二叉化。该研究在句子特征提取时使用双向LSTM对句子跨度特征进行提取,得到句子跨度在整个句子上下文中信息,再使用多层感知机对句法分析模型进行训练,最后在解码时使用动态规划选取最优句法分析结果;最终使得哈萨克语短语句法分析准确率达到了76.92%。研究成果对哈萨克语句法分析准确率有了进一步的提高并为后续的哈萨克语机器翻译及语义分析奠定良好的基础。

submitted time 2019-01-03 From cooperative journals:《计算机应用研究》 Hits318Downloads180 Comment 0

4. chinaXiv:201812.00120 [pdf]

一种基于性格的微博情感分析模型PLSTM

袁婷婷; 杨文忠; 仲丽君; 张志豪; 向进勇
Subjects: Computer Science >> Integration Theory of Computer Science

不同性格的用户所具有的语言表达方式不尽相同,现有的情感分析工作很少考虑到用户的性格,针对此问题,提出一种基于性格的微博情感分析模型PLSTM。该模型首先采用性格识别规则将微博文本分为五个性格集合和一个通用集合,其次针对每种性格文本集合分别训练出一个情感分类器,最后对六个基本情感分类器进行融合,得出最终的情感极性。实验结果显示PLSTM方法的F1值可以达到96.95%,表明PLSTM比起以前常用的基准情感分析模型在准确率、召回率、F1值上都有较大提高。

submitted time 2018-12-13 From cooperative journals:《计算机应用研究》 Hits438Downloads238 Comment 0

5. chinaXiv:201810.00059 [pdf]

维吾尔文情感分类特征建设研究

热西旦木·吐尔洪太; 吾守尔·斯拉木
Subjects: Computer Science >> Integration Theory of Computer Science

由于目前缺乏维吾尔文情感分类特征表示方面的系统性研究,以传统n-gram特征为基础,按不同规模从维吾尔文情感标注语料库中提取了新特征及其组合特征,基于支持向量机(SVM)分类器对维吾尔文情感语料库进行了正负情感分类。实验结果表明,所提取的基本特征中unigram特征的分类效率最佳;unigram特征与词组特征的组合可以进一步提高分类效率,其最佳分类效果比unigram特征的分类效果提高了1.78%。首次在统一标注数据集上对不同特征的分类性能进行了综合评价,研究成果可以为今后的维吾尔文情感分类研究提供指导。

submitted time 2018-10-11 From cooperative journals:《计算机应用研究》 Hits426Downloads277 Comment 0

6. chinaXiv:201808.00093 [pdf]

基于类别信息和特征熵的文本特征权重计算

阿力木江·艾沙; 殷晓雨; 库尔班·吾布力; 李喆
Subjects: Computer Science >> Integration Theory of Computer Science

文本向量化是文本分类的基础,特征权重是直接影响文本向量表示质量的重要因素之一。基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F1值。

submitted time 2018-08-13 From cooperative journals:《计算机应用研究》 Hits449Downloads281 Comment 0

7. chinaXiv:201805.00368 [pdf]

维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法

如先姑力·阿布都热西提; 亚森·艾则孜; 艾山·吾买尔; 阿力木江·艾沙
Subjects: Computer Science >> Integration Theory of Computer Science

针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法。首先,将论坛文本进行预处理以删除无用词,并基于N-gram 统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本。在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性。

submitted time 2018-05-18 From cooperative journals:《计算机应用研究》 Hits861Downloads516 Comment 0

8. chinaXiv:201804.02180 [pdf]

基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法

亚森·艾则孜; 艾山·吾买尔; 阿力木江·艾沙
Subjects: Computer Science >> Integration Theory of Computer Science

针对以维吾尔语书写的文档间的相似性计算及剽窃检测问题,提出了一种基于内容的维吾尔语剽窃检测(U-PD)方法。首先,通过预处理阶段对维吾尔语文本进行分词、删除停止词、提取词干和同义词替换,其中提取词干是基于N-gram 统计模型实现;然后,通过BKDRhash算法计算每个文本块的hash值并构建整个文档的hash指纹信息;最后,根据hash指纹信息,基于RKR-GST匹配算法在文档级、段落级和句子级将文档与文档库进行匹配,获得文档相似度,以此实现剽窃检测。通过在维吾尔语文档中的实验评估表明,提出的方法能够准确检测出剽窃文档,具有可行性和有效性。

submitted time 2018-04-17 From cooperative journals:《计算机应用研究》 Hits788Downloads456 Comment 0

  [1 Pages/ 8 Totals]