您当前的位置:首页 > 论文浏览
您选择的条件: 王东波(7)

1. chinaXiv:201711.01951 [pdf]

多特征知识下的食品安全事件实体抽取研究

王东波; 吴毅; 叶文豪; 刘睿伦
分类: 图书馆学、情报学 >> 情报学

【目的】从大规模食品安全事件当中抽取食品安全事件实体。【方法】基于已发生的食品安全事件, 结合情报学数据获取、标注和组织的方法, 融合食品安全事件实体的多种分布特征知识, 通过条件随机场模型, 构建食品安全事件语料并从中抽取相应的实体。【局限】在食品安全事件实体抽取过程中所制定的特征模板在领域化迁移上具有一定的局限性。【结果】在已有1500万字经过标注的食品安全事件语料的规模上, 通过统计食品安全事件实体的内部和外部特征, 基于条件随机场机器学习模型, 构建了食品安全实体的抽取模型, 该模型最高的F 值达到91.94%。【结论】通过对食品安全事件实体抽取结果的分析, 在食品这一领域化的语料上, 基于条件随机场进行实体抽取是可行的。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量308下载量205 评论 0

2. chinaXiv:201711.01961 [pdf]

面向食品安全突发事件汉语分词的特征选择及模型优化研究

张越; 王东波; 朱丹浩
分类: 图书馆学、情报学 >> 情报学

【目的】在食品安全领域中, 建立相关数据库对食品安全的监管和控制都会有很大的帮助, 自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法, 应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点, 对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验, 得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出, 特征选择时并不是特征越多分词效果越好, 会出现特征干扰的情况, 在二三字词占46.62%的食品安全突发事件语料中, 特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验, 选择出在本文研究的语料库自动分词中最优的特征和特征模板, 在5Tag 特征标记下配合对应特征模板对目标语料分词的F 值达到92.88%。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量309下载量181 评论 0

3. chinaXiv:201711.01975 [pdf]

引文元数据的自动发现和标注方法研究——以外文引文为例

姜霖; 王东波
分类: 图书馆学、情报学 >> 情报学

【目的】在总结当前引文元数据抽取方法的基础上, 结合语义学知识和机器学习方法, 对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象, 通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中, 本文方法取得了较高的准确率和召回率, 特别是针对引文中含有多种语言和缩写的现象, 具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明, 此方法在引文元数据的自动发现和标注上具有良好的效果, 并能很大程度地提高方法的适用性和容错率。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量413下载量261 评论 0

4. chinaXiv:201711.01991 [pdf]

面向食品安全突发事件汉语分词的特征选择及模型优化研究

张越; 王东波; 朱丹浩
分类: 图书馆学、情报学 >> 情报学

【目的】在食品安全领域中, 建立相关数据库对食品安全的监管和控制都会有很大的帮助, 自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法, 应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点, 对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验, 得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出, 特征选择时并不是特征越多分词效果越好, 会出现特征干扰的情况, 在二三字词占46.62%的食品安全突发事件语料中, 特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验, 选择出在本文研究的语料库自动分词中最优的特征和特征模板, 在5Tag 特征标记下配合对应特征模板对目标语料分词的F 值达到92.88%。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量312下载量194 评论 0

5. chinaXiv:201711.01995 [pdf]

引文元数据的自动发现和标注方法研究——以外文引文为例

姜霖; 王东波
分类: 图书馆学、情报学 >> 情报学

【目的】在总结当前引文元数据抽取方法的基础上, 结合语义学知识和机器学习方法, 对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象, 通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中, 本文方法取得了较高的准确率和召回率, 特别是针对引文中含有多种语言和缩写的现象, 具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明, 此方法在引文元数据的自动发现和标注上具有良好的效果, 并能很大程度地提高方法的适用性和容错率。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量415下载量270 评论 0

6. chinaXiv:201711.02006 [pdf]

基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法

朱丹浩; 杨蕾; 王东波
分类: 图书馆学、情报学 >> 情报学

【目的】中文机构名结构复杂、罕见词多, 识别难度大, 对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network, RNN)方法, 面向中文汉字和词的特点, 重新定义了机构名标注的输入和输出, 提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准, 本文提出的字级别模型在中文机构名识别的准确率、召回率和F 值均有明显提高, 其中F 值提高了1.54%。在包含罕见词时提高更为明显, F 值提高了11.05%。【局限】在解码时直接使用了贪心策略, 易于陷入局部最优, 如果使用条件随机场算法进行建模可能获取全局最优结果。【结论】本文方法构架简单, 能利用到汉字级别的特征来进行建模, 比只使用词特征取得了更好的结果。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量740下载量637 评论 0

7. chinaXiv:201711.01252 [pdf]

采用连续词袋模型(CBOW)的领域术语自动抽取研究

姜霖; 王东波
分类: 图书馆学、情报学 >> 情报学

【目的】更准确便捷地完成术语词汇的自动抽取。【方法】利用CBOW 模型计算构成术语的各个词部件的向量空间模型。通过词向量之间的余弦相似度衡量术语词汇内部各个词部件的关联度。利用PageRank 算法计算候选词汇的领域代表性并排序, 通过阈值的设定, 抽取出更为具有领域代表性的术语词汇。【结果】在以自然语言处理领域内的论文摘要作为数据集的实验中取得较高的准确率和召回率。【局限】测试的数据训练集偏小,而数据集的训练效果直接影响实验的效果。【结论】实验结果表明利用CBOW 模型完成术语的抽取工作是一个较为合理、可行的方法。

提交时间: 2017-10-11 来自合作期刊:《数据分析与知识发现》 点击量493下载量430 评论 0

  [1 页/ 7 条记录]