分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-05-10 合作期刊: 《计算机应用研究》
摘要: 汉语语言在书面表达时不具有天然分词的特性,词汇与词汇之间没有分词标记,因此在汉语文本的识别中需结合其行文的习惯及规则,即所谓的词汇特征。已有研究通常在实验中显式地标注词汇特征来提高识别效果,增加了人工处理流程,极大地加重了算法移植的工作量。研究并归纳了常用汉语语言的词汇特征,并利用条件随机场(conditional random fields,CRF)的特征提取能力,自行实现了复杂特征函数,在语料只具有简单标注的前提下,隐式地提取词汇特征,提高了识别效果。实验证明,在汉语分词中应用复杂词汇特征能有效提高识别性能,提供了在应用中提高识别算法可移植性的新思路。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-03 合作期刊: 《计算机应用研究》
摘要: 针对目前大多数关系抽取中对于文本语料中较长的实体共现句,往往只能获取到局部的特征,并不能学习到长距离依赖信息的问题,提出了一种基于循环卷积神经网络与注意力机制的实体关系抽取模型。将擅长处理远距离依赖关系的循环神经网络GRU加入到卷积神经网络的向量表示阶段,通过双向GRU学习得到词语的上下文信息向量,在卷积神经网络的池化层采取分段最大池化方法,在获取实体对结构信息的同时,提取更细粒度的特征信息,同时在模型中加入基于句子级别的注意力机制。设计了在NYT数据集的实验验证,实验结果表明提出方法能有效提高实体关系抽取的准确率与召回率。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-03 合作期刊: 《计算机应用研究》
摘要: 针对特定领域内自动化识别既有概念和发现新概念的问题,提出了一种基于条件随机场和信息熵的抽取方法。通过使用条件随机场对文本中的概念词进行边界预测,与词典中的概念对比,筛选出新概念的候选项并找出其大概位置,然后由互信息和左右熵分别判断概念窗口内的概念内部结合度和概念边界自由度,从而发现新的专业概念。实验表明,使用该方法进行概念发现比单独使用条件随机场的方法有更好的效果,基于字和词的模型概念发现的准确率分别提升了20.06%和46.54%。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-11-29 合作期刊: 《计算机应用研究》
摘要: 为了提高卷积神经网络对图像分类的正确率,对网络结构进行研究,提出了多模型融合卷积神经网络。通过提取单个模型的输出特征向量,进行融合后得到新的输出特征向量,再搭建单层分类器进行图像分类,提高分类准确率。将单个模型与多模型融合的分类准确率进行比较,多模型融合卷积神经网络的分类准确率有所提高。并分析了卷积神经网络最后一层全连接层的权值分布,发现同一模型在不同数据集上权值分布曲线相似,分类效果好的网络模型其权值分布曲线更平缓。