分类: 图书馆学、情报学 >> 情报学 提交时间: 2024-04-24
摘要: 摘要: 目的 对国内外语义新颖性研究相关进展进行归纳整理,总结相关技术,为后续研究 提供参考。 文献范围 利用“Novelty of the literature”“semantic novelty”“文献新颖性” “语义新颖性 and 文献评价”等检索式进行检索,经过阅读整理并对具有代表性的相关理 论研究进行溯源,最终筛选出 70 篇文献进行评述。 方法 对国内外语义新颖性相关研究 进行总结梳理,围绕新颖性定义、新颖性评价指标和不同评价方法等分析科技文献语义新 颖性评价的发展现状及未来趋势。 结果 语义新颖性评价逐渐受到学界的广泛关注,已有 相关研究对语义内容进行挖掘评价,但尚未形成统一的度量指标。 局限 现有的文献新颖 性多从外部特征进行评价,直接以语义新颖性为主题的研究文献数量较少,在支撑综述方 面存在局限性。 结论 科技文献的语义新颖性评价根本在于语义内容的新颖性,定量研究 已成为主流研究方法,但评价指标的计算方式尚需明确,未来的新颖性评价发展方向应结 合定性与定量方法全面分析,实现科学、合理的综合学术评价。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 探索构建文献情报大数据知识资源体系,支撑面向多领域的智慧知识服务。[方法/过程] 基于AI应用需求,借鉴业界经验,梳理现有资源体系的问题,从多层次多维度扩展资源体系;构建可靠数据处理流程和计算平台,支持高效数据采集和处理;研发智能化数据治理工具,实现知识资源的有效治理,确保提供高质量数据资源。[结果/结论] 已初步形成覆盖多类型、多学科的科技文献大数据知识资源体系,构建完成高度自动化的数据采集治理流程,实施多重数据质量控制,积累数亿高质量数据,且为多个知识服务提供数据支撑。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】通过采用语义识别、知识关系计算等方法提升科技文献检索系统的服务功能和效果, 使之能够呈现更加丰富的知识化语义信息, 将更多的知识点和知识关系展现给用户。【方法】应用数据挖掘和关系计算工具,深度识别和抽取科技文献中的语义知识, 分析、计算、构建语义关系, 并将得到的语义知识和语义关系建立多维语义索引树, 设计新的数据组织呈现模型。【结果】研发语义丰富化检索示范系统, 在科技文献检索应用过程中充分揭示语义信息, 丰富检索体验。【局限】选取的试验数据集合不够充足, 缺少其他领域应用对比。【结论】本文模型设计给用户带来更多的知识层面的关联、揭示和导航, 提升了检索系统体验。同时分析了设计模型的不足之处, 探索改进方法。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】分析数字文献资源长期保存的可持续性挑战, 推进长期保存服务的可持续建设。【方法】系统分析国内外相关文献, 梳理长期保存可持续性框架, 分析可信赖认证和经济支持等问题体系, 分析整理可信赖性认证实施机制和长期保存经济投入实施机制。【结果】提出数字文献资源长期保存的可持续支撑机制建设具体建议。【局限】对数字文献资源长期保存经济支持模式和相关研究只做了简要概述, 有待更深入展开论述。【结论】数字文献资源长期保存的可持续性包括格式可持续性、系统可持续性和服务可持续性, 服务可持续性涉及管理、经济和政治可持续性要求, 并提出加强长期保存可持续性建设的具体建议。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】开发网络信息存档WARC 文件的解析与索引系统, 充分挖掘科技网站存档资源价值。【应用背景】在网络资源采集存档领域, WARC 文件格式获得了广泛的应用。随着网络信息的多样化, 已有的WARC 文件索引工具越来越难以满足用户多样性的查询需求。【方法】采用模块化方案解析WARC 文件。分析比较常用的索引工具, 选择Solr 平台开发全文索引系统。【结果】实现对WARC 文件基于内容的检索访问服务, 并在WARC的索引中增加了学科分类、资源类型和存档时间等分面检索内容, 从多维度对WARC 文件内容进行揭示。【结论】向用户提供了丰富的科技网站存档数据信息, 提高了用户检索访问效率。
分类: 图书馆学、情报学 >> 文献学 提交时间: 2017-08-21
摘要: [目的/意义]本文期望通过采用数据挖掘、语义识别、知识关系计算等技术方法来提升科技文献检索系统的服务功能和效果,使之能够呈现更加丰富的知识化语义信息,将更多的知识点和知识关系展现给用户。[方法/过程] 本文应用semrap和clausIE数据挖掘和关系计算工具,识别和抽取科技文献中的语义对象,分析、计算、构建语义关系,并将得到的语义对象和语义关系设计建立多维语义索引树,设计了新的数据组织呈现模型。[结果/结论] 研发语义丰富化检索示范系统,在科技文献检索系统中充分揭示语义信息,给用户带来更多的知识内容层面的导航、关联、发掘和揭示,同时分析了设计模型的优势与不足。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2016-05-05
摘要: [目的]对典型科技文献语义检索系统进行调研和总结。[文献范围]利用Web of Knowledge和Google Scholar检索semantic search相关文献以及语义检索系统的参考文献和研究报告。[方法]根据文本语义处理程度,将这些系统归纳为语义查询扩展的检索系统、以概念或实体为中心的检索系统、以关系为中心的检索系统和面向知识发现的检索系统。[结果]提出科技文献语义检索系统的基本框架,总结科技文献语义检索系统功能特点。[局限]缺少对语义检索系统的性能评测。[结论]为构建面向科技文献的语义检索系统提供良好借鉴。
分类: 图书馆学、情报学 >> 情报资料的搜集、保管 提交时间: 2016-04-20
摘要: 目的/意义 研究建立长期保存系统起源管理框架,通过有效管理起源信息,确保长期保存系统所存档数据的真实可靠可用。 方法/过程 基于数字对象保存周期进行起源事件定义,基于 OAIS 保存流程进行起源管理框架设计,以事件为核心进行起源管理功能模型和起源信息模型设计。 结果/结论 初步完成基于事件的保存系统起源管理框架的设计,既遵循了保存领域的相关标准,同时兼顾了实践需求,对长期保存系统具有很好的普适性和可行性,但其在有效性和实用性方面还有待进一步验证。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2016-04-14
摘要: 摘要: 【目的】在数字资源长期保存系统(DPS)中应用开源格式识别工具获取复杂对象的格式信息。【应用背景】摘要: 【目的】在数字资源长期保存系统(DPS)中应用开源格式识别工具获取复杂对象的格式信息。【应用背景】在现有开源工具的基础上, 为满足 DPS 的实际需求、保障效率和执行效果, 需选择合适的工具进行二次开发和集成应用。【方法】分析比较现有两种常用工具, 选取 DROID作为 DPS的格式识别工具, 同时针对 DPS效率要求, 提出选用 DROID 批量格式识别的处理思路, 并对其进行有效封装。【结果】将 DROID 封装为“DPS 的批量格式处理模块”并在 DPS格式识别及技术元数据抽取中得到实际应用。【结论】 DROID是一个优秀的开源工具, 其自动批处理特性基本满足 DPS格式处理需求。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2016-03-10
摘要: 文章对图书馆领域的主流资源发现平台(Elsevier,Springer,中国知网 CNKI)和商业资源发现系统(Primo,Summon,EDS)的页面构造和页面布局等方面进行了多层次多角度的分析,并对多个平台(如Willy,英国国家图书馆,荷兰国家图书馆,美国国会图书馆,美国 NSDL,OCLC,PubMed等)的特色资源和功能进行调研分析,最终借助上述平台的优秀功能,改进我中心自行建设的资源集成发现服务系统,并着重提升用户使用体验。
分类: 图书馆学、情报学 >> 情报资料的搜集、保管 提交时间: 2016-02-22
摘要: [目的/意义]结合数据起源的内容和长期保存特点,全面研究和分析数据起源在长期保存中的应用,为长期保存系统组织管理起源提供参考。 [方法/过程]分析长期保存领域中相关标准如OAIS、PREMIS和TRAC对起源的解释和要求,对比起源在已有的长期保存系统中的应用情况。[结果/结论]提出以事件为核心的长期保存起源管理框架,总结起源的详细内容、捕获方法、组织方案、存储封装策略和技术方案等。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2016-02-02
摘要: 【目的】构建国际重要科研机构 Web 存档系统。【方法】基于 IIPC 开源软件拓展采集存档框架, 在采集端采用三层扩展策略, 在采集客户端增加自动上传及报告等管理功能, 开发WARC文件内容解析模块, 利用Solr进行索引。【结果】在采集端实现三层扩展, 通过增加采集客户端功能提高存档流程自动化程度, 通过增加的WARC文件内容解析功能抽取更多信息, 实现索引及检索服务的扩展。【局限】没有使用大规模采集存档进行检验。【结论】扩展后的采集存档框架初步具备分布式、可扩展、全自动化的特点。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2016-01-25
摘要: 通过调研国际主要机构的战略规划,归纳出Data Curation 在管理、资源建设、技术基础设施方面存在的主要挑战。针对这些挑战,从战略规划、数据评估与遴选政策、关键技术、审计和认证四方面全面回顾了国际Data Curation 研究、实践的发展情况。分析图书馆在大数据科研环境下可能参与科研数据保管的领域,为图书馆在Data Curation活动中谋求发展机会。