您当前的位置:首页 > 论文浏览

1. chinaXiv:201711.01975 [pdf]

引文元数据的自动发现和标注方法研究——以外文引文为例

姜霖; 王东波
分类: 图书馆学、情报学 >> 情报学

【目的】在总结当前引文元数据抽取方法的基础上, 结合语义学知识和机器学习方法, 对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象, 通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中, 本文方法取得了较高的准确率和召回率, 特别是针对引文中含有多种语言和缩写的现象, 具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明, 此方法在引文元数据的自动发现和标注上具有良好的效果, 并能很大程度地提高方法的适用性和容错率。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量328下载量211 评论 0

2. chinaXiv:201711.01995 [pdf]

引文元数据的自动发现和标注方法研究——以外文引文为例

姜霖; 王东波
分类: 图书馆学、情报学 >> 情报学

【目的】在总结当前引文元数据抽取方法的基础上, 结合语义学知识和机器学习方法, 对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象, 通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中, 本文方法取得了较高的准确率和召回率, 特别是针对引文中含有多种语言和缩写的现象, 具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明, 此方法在引文元数据的自动发现和标注上具有良好的效果, 并能很大程度地提高方法的适用性和容错率。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量344下载量230 评论 0

  [1 页/ 2 条记录]