分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》
摘要: [目的/意义]从主题视角对环境科学领域的零被引论文进行分析,对比零被引论文与高被引论文在文章内容、外在指标方面的不同,揭示零被引论文存在的原因。[方法/过程]首先,对来自Web of Science数据库的国内环境科学领域的260篇高被引论文、907篇零被引论文的摘要进行PLDA主题识别,然后通过主题相似度计算发现主题间的关联,以主题热度作为内部指标,发文时间、发文期刊作为外部评价指标,最后,把论文主题内容与外部指标结合进行零被引与高被引论文之间的相同主题、不同主题对比分析。[结果/结论]在研究主题相同情况下,期刊的影响因子大小是影响零被引论文的主要因素;在主题不同的情况下,论文研究的主题内容是导致零被引论文的主要原因。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》
摘要: [目的/意义] 创新是学术论文的本质要求,如何有效评价学术论文的创新力一直以来备受国内外专家和学者关注。随着信息技术的发展,利用计算机技术从论文内容角度对单篇学术论文的创新力进行评价逐步成为可能。[方法/过程] 提出一种基于研究主题对比的单篇学术论文创新力评价方法。该方法首先利用Keygraph算法提取代表论文研究主题的关键词,然后,将论文的研究主题与科学研究前沿主题进行相似度计算,最后,结合期刊影响因子和Altmetrics两项外在指标提出一种论文创新力综合评价模型。[结果/结论] 通过对碳纳米管材料研究领域的实证研究证明,该方法能够有效、迅速和准确地从论文内容角度对单篇学术论文的创新力进行评价。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》
摘要: [目的/意义]针对自动识别论文引用情感问题,提出一种基于引文内容分析的识别方法并进行可视化展示,克服基于简单引用频次计量无法区分不同引用情感的问题。[方法/过程]首先,利用正则表达式抽取出论文全文中的引文内容信息;然后,利用TF-IDF算法筛选出引用情感特征词,结合情感词典,利用情感分析技术对引文内容进行引用情感识别;最后,利用可视化工具展示出引用情感整体分布情况。[结果/结论]该方法能够有效识别出抗衰老领域论文数据集中引用情感情况。实验结果显示,该领域正面引用占总引用次数的21%,中立引用占总引用次数的78%,负面引用仅占总引用次数的1%。与传统引文网络相比较,基于引用情感的可视化图谱可以有效识别出不同引用情感在整体数据集合上的分布情况。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 知识的积累与传承推动着人类社会的发展,为此提出利用科技文献知识基因进行知识的遗传与变异研究,以期对知识传承与发展变化进行更直观、全面地透视。[方法/过程] 通过辨析知识基因概念,确定知识基因的研究意义,并探讨其具体研究对象;提出科技文献知识基因内容表达的两种方式,归纳科技文献知识基因的类型;分析影响知识基因遗传与变异的主要因素,且设计识别知识基因的遗传与变异的方法。[结果/结论] 通过对科技文献知识基因的辨识,能够有效揭示出不同文献之间的知识传承与迭代,促进知识基因理论体系的发展与完善。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 针对SAO结构短文本分类时面临的语义特征短缺和领域知识不足问题,提出一种融合语义联想和BERT的SAO分类方法,以期提高短文本分类效果。[方法/过程] 以图情领域SAO短文本为数据源,首先设计了一种包含"扩展-重构-降噪"三环节的语义联想方案,即通过语义扩展和SAO重构延展SAO语义信息,通过语义降噪解决扩展后的噪声干扰问题;然后利用BERT模型对语义联想后的SAO短文本进行训练;最后在分类部分实现自动分类。[结果/结论] 在分别对比了不同联想值、学习率和分类器后,实验结果表明当联想值为10、学习率为4e-5时SAO短文本分类效果达到最优,平均F1值为0.852 2,与SVM、LSTM和单纯的BERT相比,F1值分别提高了0.103 1、0.153 8和0.140 5。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 提出一种融合评论主题识别与技术属性多维度分析的技术机会发现方法,从技术需求驱动视角识别技术机会,为企业前瞻布局研发方向与进行科研管理规划提供决策建议支持。[方法/过程] 以产品在线评论为研究数据源,首先,利用LDA主题模型识别出评论技术主题,提出技术评论主题强度和主题新颖度两个指标,筛选出新兴重点技术评论主题。然后,从学术论文、技术专利中人工选取技术属性词,通过TF-IDF值计算得到评论高频词,结合专家知识进一步筛选出技术特征词,构建产品技术属性词-技术特征词表。通过相关性计算分别得到与评论相关和与新兴重点技术评论主题相关的技术属性。最后,提出一种产品重要技术属性识别指标模型并设计一种多维度分析方法,分析产品重要技术属性的特征情况,最终识别出蕴含在评论文本中的新兴技术机会。[结果/结论] 实验结果表明该方法能够有效地识别技术机会,为企业产品技术研发管理提供参考。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米 管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标 注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度 计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注 性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好 的泛化能力和鲁棒性。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》
摘要: 【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米 管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标 注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度 计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注 性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好 的泛化能力和鲁棒性。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】对主要的文本语义挖掘方法及其在情报研究中的应用进行综述分析。【文献范围】集中选择近10年国内外主流的文本语义挖掘方法在情报研究领域的应用以及少数此前的代表性研究和文本语义挖掘方法的进展研究。【方法】分别概括介绍词、句子和篇章粒度的文本语义挖掘方法、算法, 并通过主题演化和技术挖掘领域的实际应用进行方法剖析。【结果】文本语义挖掘方法与传统的情报分析方法相比, 主要弥补了两个缺陷: 侧重于分析结构化的数据, 无法处理多种异构的数据源; 分析停留在统计语法层面, 没有深入到文本的语义信息。【局限】仅对主流的文本语义挖掘方法以及在科学研究领域的应用进行综述分析, 研究不全面。【结论】文本语义挖掘方法弥补了传统情报分析方法的不足, 是情报研究方法的重要发展方向, 随着方法的成熟, 下一步研究重点是外部语义资源的丰富。