分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-05-10 合作期刊: 《计算机应用研究》
摘要: 文本分类作为数据挖掘和信息检索领域的研究热点。迄今为止,传统机器学习方法依赖人工提取特征,复杂度高;深度学习网络本身特征表达能力强,但模型可解释性弱导致关键特征信息丢失。为此,以网络层次结合的方式设计了CRNN网络,并引入Attention机制,提出一种Text-CRNN+Attention模型。首先利用CNN处理局部特征的位置不变性,提取高效局部特征信息;然后RNN进行序列特征建模时,引入Attention机制对每一时刻输出序列信息进行自动加权,减少关键特征的丢失;最后完成时间和空间上的特征提取。实验结果表明,提出的模型较其他模型准确率提升了2~3个百分点;在提取文本特征时,该模型既保证了数据的局部相关性,又起到强化序列特征的有效组合能力。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 针对SAO结构短文本分类时面临的语义特征短缺和领域知识不足问题,提出一种融合语义联想和BERT的SAO分类方法,以期提高短文本分类效果。[方法/过程] 以图情领域SAO短文本为数据源,首先设计了一种包含"扩展-重构-降噪"三环节的语义联想方案,即通过语义扩展和SAO重构延展SAO语义信息,通过语义降噪解决扩展后的噪声干扰问题;然后利用BERT模型对语义联想后的SAO短文本进行训练;最后在分类部分实现自动分类。[结果/结论] 在分别对比了不同联想值、学习率和分类器后,实验结果表明当联想值为10、学习率为4e-5时SAO短文本分类效果达到最优,平均F1值为0.852 2,与SVM、LSTM和单纯的BERT相比,F1值分别提高了0.103 1、0.153 8和0.140 5。
分类: 图书馆学、情报学 >> 情报检索 提交时间: 2023-08-28
摘要: 目的/意义 探究ChatGPT生成与学者撰写的中文论文摘要之间的异同,并分析二者之间的内容特征差异,为AI生成学术论文检测及相关研究提供借鉴。 方法/过程 首先,以信息资源管理领域为例,分别抽取了图书馆学、情报学、档案学近三年各500篇高被引论文,基于获取的论文题目采用Prompt方式应用ChatGPT工具生成对应的摘要文本,构建数据集合;其次,采用了9种机器学习及深度学习算法对ChatGPT生成与学者撰写的摘要文本进行分类检测;最后,从文本特征、主题模型、ROUGE评测对二者的异同进行多角度分析,从而揭示二者之间的异同点。 结果/结论 基于数据集所训练的主流机器学习及深度学习算法可以有效地分辨摘要是AI生成还是学者撰写,其中BERT和ERNIE的效果最好,而机器学习算法中RF和Xgboost效果最好。ChatGPT生成的摘要字符数量、句子数量较学者撰写的要多,关键词多为模版化的转折性词语;两者的文本主题大部分相同,在学科体系、数字人文等主题上存在差异;ROUGE及余弦相似度定量分析表明ChatGPT生成的摘要与学者撰写的摘要文本存在明显的形似而非神似的现象。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2022-01-05
摘要: [目的] 本文针对中文出版物中不同字体、不同书写系统的阅读绩效进行客观对比研究。 [方法] 具体地,将汉字渲染成其对应字形的图像,并进一步按照语序把句子中的汉字图像折叠成为三维的句子张量。对于同一段中文文本,用不同的字体或者简体、繁体会得到句子的视觉差异化的张量表达。通过进一步将得到句子张量输入到我们设计的深度语言模型,进行文本分类等任务的测试,可以客观地比较字体和书写系统对阅读绩效的影响。 [结果] 通过在两个中文文本分类数据集上的测试发现,一些特殊不常用字体相较于常用字体的机器识别准确度较低,并且常用字体中不同字体的阅读绩效也有差异。 [结论] 通过假设检验得出使用楷体和黑体的数据集在文本分类任务上的准确度存在显著性差异,楷体相比于黑体来说阅读绩效更高。简体中文和繁体中文的阅读绩效存在显著性差异。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】由于文本数据存在许多与分类不相关的冗余词项, 引入混合蛙跳算法进行特征选择优化, 提高分类准确率。【方法】分别使用CHI 和IG 预选出不同维度的特征集合, 再引入改进后的混合蛙跳算法对预选特征集合进行二次优选, 每只青蛙的位置代表一种特征选择规则, 将分类准确率作为算法的适应度函数。SVM和KNN 分类器用于实验中分类准确率的计算。【结果】引入改进后的蛙跳算法比CHI和IG能得到更好的分类效果,最大提升幅度达到12%。【局限】在少部分特征维度下出现过拟合现象。【结论】采用特征词预选和改进后的蛙跳算法相结合的特征选择优化方法可以有效排除部分噪声特征项的干扰, 从而提高文本分类准确率。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】由于文本数据存在许多与分类不相关的冗余词项, 引入混合蛙跳算法进行特征选择优化, 提高分类准确率。【方法】分别使用CHI 和IG 预选出不同维度的特征集合, 再引入改进后的混合蛙跳算法对预选特征集合进行二次优选, 每只青蛙的位置代表一种特征选择规则, 将分类准确率作为算法的适应度函数。SVM和KNN 分类器用于实验中分类准确率的计算。【结果】引入改进后的蛙跳算法比CHI和IG能得到更好的分类效果,最大提升幅度达到12%。【局限】在少部分特征维度下出现过拟合现象。【结论】采用特征词预选和改进后的蛙跳算法相结合的特征选择优化方法可以有效排除部分噪声特征项的干扰, 从而提高文本分类准确率。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 政府网络问政平台是政府部门知晓民意的重要途径之一,为提高问政留言分类的精度以及处理留言数据质量差、数量少等问题,对比多种基于BERT改进模型与文本增强技术结合的分类效果并探究其差异原因。[方法/过程] 设计网络问政留言分类集成对比模型,文本增强方面采用EDA技术与SimBERT文本增强技术进行对比实验,文本分类模型方面则采用多种基于BERT改进的预训练语言模型(如ALBERT、RoBERTa)进行对比实验。[结果/结论] 实验结果表明,基于RoBERTa与SimBERT文本增强的文本分类模型效果最佳,在测试集上的F1值高达92.05%,相比于未进行文本增强的BERT-base模型高出2.89%。同时,SimBERT文本增强后F1值相比未增强前平均提高0.61%。实验证明了基于RoBERTa与SimBERT文本增强模型能够有效提升多类别文本分类的效果,在解决同类问题时具有较强可借鉴性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-24 合作期刊: 《计算机应用研究》
摘要: 特征项的选择和特征权值的计算是文本分类过程中两个至关重要的环节,对文本分类的结果起关键性作用。为了克服传统的CHI统计方法存在特征项出现频率与类别负相关的情况和某一个特征项存在于某一个文本中的概率问题,针对传统的CHI统计方法引入了负相关判定、频度等重要因素进行了改进,并结合语义相似度的计算方法对TF-IDF算法进行了优化,在WEKA软件上采用了KNN(K-nearest neighbor)分类器和支持向量机(SVM)分类器分别对微博情感语料进行分类,该实验结果表明,新方法在文本分类的准确性上有明显的提高。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-18 合作期刊: 《计算机应用研究》
摘要: 针对目前自然语言处理研究中,使用卷积神经网络(CNN)进行短文本分类任务时可以结合不同神经网络结构与分类算法以提高分类性能的问题,提出了一种结合卷积神经网络与极速学习机的CNN-ELM混合短文本分类模型。使用词向量训练构成文本矩阵作为输入数据,然后使用卷积神经网络提取特征并使用Highway网络进行特征优化,最后使用误差最小化极速学习机(EM-ELM)作为分类器完成短文本分类任务。与其他模型相比,该混合模型能够提取更具代表性的特征并能快速准确地输出分类结果。在多种英文数据集上的实验结果表明提出的CNN-ELM混合短文本分类模型比传统机器学习模型与深度学习模型更适合完成短文本分类任务。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 随着智能终端设备的不断普及,微信、网络即时新闻、电商客户产品评论等富含极短文本数据的信息呈爆发式增长。为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用Jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过(1-0)检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 在传统的文本分类中,文本向量空间矩阵存在“维数灾难”和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合。对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机SVM作为分类器训练算法。实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果平均提升约6%,从而验证了该框架的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-08-13 合作期刊: 《计算机应用研究》
摘要: 文本向量化是文本分类的基础,特征权重是直接影响文本向量表示质量的重要因素之一。基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F1值。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-24 合作期刊: 《计算机应用研究》
摘要: 针对文本分类中传统特征选择方法卡方统计量和信息增益的不足进行了分析,得出文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计的特征选择评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为各类别特征词库的并集。通过基于SVM的中文文本分类实验表明,该方法与传统的卡方统计量和信息增益相比,在一定程度上提高了文本分类的效果。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-07-09 合作期刊: 《计算机应用研究》
摘要: 针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,本文通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补ECE方法倾向于选择弱区分能力高频特征的缺陷(ωECE)。在综合两种改进后方法的基础上,进一步提出基于改进CHI和带权ECE结合(pCHIωECE)的特征选择方法。经对比实验验证,pCHIωECE方法的查准率、F1值均优于CHI、ECE及pCHI、ωECE方法,且该方法的降维稳定性更好。
分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2018-09-27
摘要: 加权极限学习机对不同类别的样本赋予不同的权值,在一定程度上提高了分类准确 率,但加权极限学习机只考虑了不同类别样本之间差异,忽视了样本噪声和同类样本之间的 差异。本文提出了一种基于文本类别信息熵的极限学习机集成方法,该方法以Adaboost.M1 为算法框架,通过文本的类内分布熵和类间分布熵生成文本类别信息熵,由文本类别信息熵 构造代价敏感矩阵,把代价敏感极限学习机集成到Adaboost.M1 框架中。实验结果表明,该 方法与其他类型的极限学习机相比较有更好的准确性和泛化性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 向量空间模型(VSM)是一种使用特征向量对文本进行建模的方法,广泛应用于文本分类、模式识别等领域。但文本内容较多时,传统的VSM建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,提出一种利用词义和词频降低文本建模维度的方法,以提高效率和准确度。提出一种多义词判别优化的同义词聚类方法,结合上下文判别多义词的词义后,根据特征项词义相似度进行加权,合并词义相近的特征项。新方法使特征向量维度大大降低,多义词判别提高了文章特征提取的准确性。与其他文本特征提取和文本分类方法进行比较,结果表明,该算法在效率和准确度上有明显提高。
分类: 其他 >> 综合 提交时间: 2023-03-31 合作期刊: 《农业图书情报学报》
摘要: [目的/ 意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过 高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选 择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法/ 过程]将文本分类 常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT 模型结合3 种采样策略进行深度主动学习训练,在共 19 847 条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30 个样本标注的迭代实验进行测试。[结果/ 结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT 模型配合判别性主动学习采样函 数,具有最优的新闻文本分类效果和最低的标注数据需求。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-04-07 合作期刊: 《计算机应用研究》
摘要: 现有大多数利用图神经网络的算法进行文本分类时,忽略了图神经网络的过度平滑问题和由于文本图拓扑差异引入的误差,导致文本分类的性能不佳。针对这一问题,提出了衡量多个文本图表示的平滑度的方法WACD以及抑制过平滑现象的正则项RWACD。随后提出了基于注意力和残差的网络结构ARS,用于弥补由于图拓扑差异引起的文本信息的损失。最后,提出了图卷积神经网络文本分类算法RA-GCN。RA-GCN在图表示学习层使用ARS融合文本表示,在读出层使用RWACD抑制过平滑现象。在6个中英文数据集上进行实验,实验结果证明了RA-GCN的分类性能,并通过多个对比实验验证了RWACD和ARS的作用。
分类: 数字出版 >> 新媒体 提交时间: 2023-10-08 合作期刊: 《中国传媒科技》
摘要: 【目的】文章比较多个基于深度神经网络的中文新闻文本分类模型,旨在找到准确度较高的方法用以实际工作,为中文新闻文本分类提供更加高效的方法。【方法】对文本分类技术和中文新闻分类进行了梳理和归纳,对中文新闻文本的特征和预处理进行了阐述,详细介绍FastText算法、Bert分类算法、TextCNN算法和TextRNN算法。【结果】四种深度神经网络算法均可以应用于中文新闻文本分类,可以有效处理信息紊乱问题以及快速准确进行分类。【结论】通过对四种深度神经网络算法进行试验和效果对比,发现FastText模型在实际工作中的文本分类效果最为优异。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-18 合作期刊: 《计算机应用研究》
摘要: 传统的文本分类方法大多数使用单一的分类器,而不同的分类器对分类任务的侧重点不同,就使得单一的分类方法有一定的局限性,同时每个特征提取方法对特征词的考虑角度不同。针对以上问题,提出了多类型分类器融合的文本分类方法。该模型使用了word2vec、主成分分析、潜在语义索引以及TFIDF特征提取方法作为多类型分类器融合的特征提取方法。并在多类型分类器加权投票方法中忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。通过实验结果表明,多类型分类器融合方法在二元语料库、多元语料库以及特定语料库上都取得了很好的性能,类别加权的分类器权重计算方法比多类型分类器融合方法在分类性能方面提高了1.19%。