分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 探索构建文献情报大数据知识资源体系,支撑面向多领域的智慧知识服务。[方法/过程] 基于AI应用需求,借鉴业界经验,梳理现有资源体系的问题,从多层次多维度扩展资源体系;构建可靠数据处理流程和计算平台,支持高效数据采集和处理;研发智能化数据治理工具,实现知识资源的有效治理,确保提供高质量数据资源。[结果/结论] 已初步形成覆盖多类型、多学科的科技文献大数据知识资源体系,构建完成高度自动化的数据采集治理流程,实施多重数据质量控制,积累数亿高质量数据,且为多个知识服务提供数据支撑。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-03-13
摘要: ChatGPT是由OpenAI公司研发的对话系统。它的对外表现是一个聊天机器人,实际本质是人工智能生成技术,关键基础是基于生成式预训练的变换器,核心技术是InstructGPT,主要特点是与前期类似产品相比,编造事实大幅下降,生成的毒内容更少。本文从ChatGPT的技术体系、相关研究与实践、应用情况等方面进行了系统的调研。分析了人工智能技术迅速发展带来的启示与ChatGPT对科学研究和文献情报工作的影响。提出了对文献情报领域的八条建议。总体来说,文献情报领域在AI时代要找到自己的不同价值取向,既要守正继承传统科学研究范式,也要拓展以ChatGPT等新技术助力科学研究。
分类: 图书馆学、情报学 >> 情报检索 提交时间: 2023-02-09
摘要: 【背景及目的】作者识别正在向多层次特征的使用发展,而相较于文体风格特征,主题特征在历来作者识别研究应用中仍是少数,特别是针对中文社交媒体文本的作者识别。同时针对主题特征的利用研究,更多的是对主题特征的抽取技术和方法的创新,而未对识别出的主题以及主题特征的应用方法进行进一步研究。所以,本研究以主题特征在中文社交媒体文本作者识别中的使用研究为基本目的,同时进一步制定策略对主题特征中的核心主题进行识别和筛选,优化主题特征的使用方法,从而提高主题特征在作者识别中的使用效果。【方法】研究首先利用LDA主题模型抽取候选作者的学术主题和社交主题,然后利用word2vec制定合并筛选策略进行核心主题的识别和表示,最后结合N-gram特征和相似度计算的办法实现作者识别。【结果】实验结果显示主题特征在本研究语料上对作者识别有一定的积极作用,同时本研究提出的核心主题特征相关策略和应用也能优化主题特征的使用效果。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】通过采用语义识别、知识关系计算等方法提升科技文献检索系统的服务功能和效果, 使之能够呈现更加丰富的知识化语义信息, 将更多的知识点和知识关系展现给用户。【方法】应用数据挖掘和关系计算工具,深度识别和抽取科技文献中的语义知识, 分析、计算、构建语义关系, 并将得到的语义知识和语义关系建立多维语义索引树, 设计新的数据组织呈现模型。【结果】研发语义丰富化检索示范系统, 在科技文献检索应用过程中充分揭示语义信息, 丰富检索体验。【局限】选取的试验数据集合不够充足, 缺少其他领域应用对比。【结论】本文模型设计给用户带来更多的知识层面的关联、揭示和导航, 提升了检索系统体验。同时分析了设计模型的不足之处, 探索改进方法。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】开发网络信息存档WARC 文件的解析与索引系统, 充分挖掘科技网站存档资源价值。【应用背景】在网络资源采集存档领域, WARC 文件格式获得了广泛的应用。随着网络信息的多样化, 已有的WARC 文件索引工具越来越难以满足用户多样性的查询需求。【方法】采用模块化方案解析WARC 文件。分析比较常用的索引工具, 选择Solr 平台开发全文索引系统。【结果】实现对WARC 文件基于内容的检索访问服务, 并在WARC的索引中增加了学科分类、资源类型和存档时间等分面检索内容, 从多维度对WARC 文件内容进行揭示。【结论】向用户提供了丰富的科技网站存档数据信息, 提高了用户检索访问效率。
分类: 图书馆学、情报学 >> 文献学 提交时间: 2017-08-21
摘要: [目的/意义]本文期望通过采用数据挖掘、语义识别、知识关系计算等技术方法来提升科技文献检索系统的服务功能和效果,使之能够呈现更加丰富的知识化语义信息,将更多的知识点和知识关系展现给用户。[方法/过程] 本文应用semrap和clausIE数据挖掘和关系计算工具,识别和抽取科技文献中的语义对象,分析、计算、构建语义关系,并将得到的语义对象和语义关系设计建立多维语义索引树,设计了新的数据组织呈现模型。[结果/结论] 研发语义丰富化检索示范系统,在科技文献检索系统中充分揭示语义信息,给用户带来更多的知识内容层面的导航、关联、发掘和揭示,同时分析了设计模型的优势与不足。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2016-06-13
摘要: 本论文围绕富文档载体类型的鉴别、元数据的提取等开展相应的实际应用探索。笔者通过开源工具PDFBox以及Tika对不同类型的富文档元数据及正文内容进行提取,取得了很好的实际效果,为科研人员提供了大量的有学术价值的情报资源。但是由于开源工具的局限性以及富文档特殊的文档结构,导致提取出来的元数据及正文内容准确率欠缺完美,笔者后续将对此进行研究并完善改进。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2016-05-05
摘要: [目的]对典型科技文献语义检索系统进行调研和总结。[文献范围]利用Web of Knowledge和Google Scholar检索semantic search相关文献以及语义检索系统的参考文献和研究报告。[方法]根据文本语义处理程度,将这些系统归纳为语义查询扩展的检索系统、以概念或实体为中心的检索系统、以关系为中心的检索系统和面向知识发现的检索系统。[结果]提出科技文献语义检索系统的基本框架,总结科技文献语义检索系统功能特点。[局限]缺少对语义检索系统的性能评测。[结论]为构建面向科技文献的语义检索系统提供良好借鉴。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2016-03-10
摘要: 文章对图书馆领域的主流资源发现平台(Elsevier,Springer,中国知网 CNKI)和商业资源发现系统(Primo,Summon,EDS)的页面构造和页面布局等方面进行了多层次多角度的分析,并对多个平台(如Willy,英国国家图书馆,荷兰国家图书馆,美国国会图书馆,美国 NSDL,OCLC,PubMed等)的特色资源和功能进行调研分析,最终借助上述平台的优秀功能,改进我中心自行建设的资源集成发现服务系统,并着重提升用户使用体验。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2016-02-02
摘要: 【目的】构建国际重要科研机构 Web 存档系统。【方法】基于 IIPC 开源软件拓展采集存档框架, 在采集端采用三层扩展策略, 在采集客户端增加自动上传及报告等管理功能, 开发WARC文件内容解析模块, 利用Solr进行索引。【结果】在采集端实现三层扩展, 通过增加采集客户端功能提高存档流程自动化程度, 通过增加的WARC文件内容解析功能抽取更多信息, 实现索引及检索服务的扩展。【局限】没有使用大规模采集存档进行检验。【结论】扩展后的采集存档框架初步具备分布式、可扩展、全自动化的特点。