分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-26 合作期刊: 《图书情报工作》
摘要: [目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】基于多知识库进行实体链接, 解决基于单一知识库的实体链接覆盖度低的问题。【方法】首先生成文本的n-gram 并利用词性和多个指称–实体字典获取候选指称, 然后生成指称组合并保留覆盖度最大且不被其他组合包含的指称组合, 接着生成候选实体序列并利用多知识库信息计算实体序列的相关度, 最后选择相关度最大的实体序列为最终结果。【结果】以Wikipedia 和Freebase为例的实验结果表明, 基于Wikipedia+Freebase的实体链接准确率、召回率、F 值分别达到71.81%、76.86%、74.25%。【局限】基于词性过滤n-gram 缺乏理论依据, 数据集FACC1 具有高准确率和低召回率的特点。【结论】利用多个知识库的实体信息, 能够提升实体链接效果。