分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》
摘要: [ 目的 / 意义 ] 面向主流新闻媒体人民日报语料展开研究,旨在为文本自动摘要研究 提供思路和实践支撑,进而应用到新闻等相关文本信息处理中,为知识聚合服务和信息获取 途径研究做出贡献。[ 方法 / 过程 ] 以新时代人民日报语料 NEPD 中的 2015 年 1 月、2015 年 6 月和 2016 年 1 月的人民日报分词语料作为实验语料,基于 TF-IDF、Textrank 等抽取式自 动摘要算法,以及基于指针生成网络的生成式自动摘要模型展开研究,并对摘要结果进行分 析评价。[ 结果 / 结论 ] 实验设计面向人民日报语料的新闻抽取式自动摘要算法,构建面向人 民日报语料的新闻生成式自动摘要指针生成网络模型,并通过 Rouge 指标(包括 Rouge-1、 Rouge-2和 Rouge-L 3种指标)对实验结果进行评测,为人民日报分词语料的应用提供具体思路, 并对新闻自动摘要系统研究提供语料支持和实践支撑。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》
摘要: [目的/意义] 基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布,有助于了解当代汉语文本的语言学特征,进而开展自然语言处理和文本挖掘研究。[方法/过程] 在2018年1月人民日报分词语料的基础上,结合1998年1月人民日报分词语料,确定统计中所使用的6种句子类别,统计和分析字与词单位上的句子长度分布,并基于齐普夫定律揭示词汇静态分布情况。[结果/结论] 从字词维度上的句子长度分布情况和词汇的齐普夫分布状态上看,随着时间的推移,在1998和2018两个语料上,句子的长度和词汇的分布均发生变化,但这种变化又是延续的、有关联的。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》
摘要: [目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》
摘要: [目的/意义] 构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-04-13
摘要: 目的/意义 对先秦典籍中植物进行知识挖掘,构建先秦典籍植物知识图谱,对认识我国古代人民社会和生活状态等具有重要意义。 方法/过程 对先秦典籍中植物词进行详尽标注与计量分析。基于CRF和多种深度学习模型构建古汉语植物命名实体识别模型,比较分析各模型性能以确定最优模型;设计了面向知识图谱的古汉语植物知识组织模式。 结果/结论 基于领域预训练语言模型SikuRoBERTa构建的古汉语植物命名实体识别模型性能最优,调和平均值达85.44%,为基于实体的植物知识挖掘提供了有效方法;构建了先秦典籍植物知识图谱,实现了对先秦典籍中植物实体及其关联知识的聚合与可视化呈现。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 基于古籍数字化和古文智能处理的古籍人文计算研究,是近年来古文信息处理的新焦点,而以数据为基础的量化分析方法能为古籍相关的传统研究问题带来新的视角和思路。[方法/过程] 以《春秋》三传中女性人物为研究对象,以多角度的女性人物知识标注为数据来源,进行了包括女性人物姓、国、氏、排行、谥号、尊称和年份分布的女性人物知识量化分析,以及以女性人物知识为线索的以联姻参与度为主的诸侯国联姻关系量化分析。[结果/结论] 对《春秋》三传女性人物进行了新角度的解读,提供了一种可度量、可视化的研究思路,为相关研究提供了可信的数据验证。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 信息技术的发展推动了数字人文在社会人文领域的广泛应用,借助于便捷高效的计算技术从海量的数据资源和非结构化的文本中挖掘出潜在的信息,并以更加直观和清晰的方式呈现给用户。[方法/过程] 以《左传》中所描述的战争为研究对象,从已经获取的战争句子中抽取出每一场战争的战略进攻方和战略防守方。从数字人文的视角出发,对使用社会网络分析方法挖掘春秋战争格局变化的可行性进行了探究,在此基础上,将春秋时期的诸侯国根据战争合作与战争对抗关系进行了社群划分,并对社群与核心国家逐一分析与讨论。同时运用html、css和E-Charts三种技术将《左传》中的战争进行动态展示。[结果/结论] 提供一种从非结构化的《左传》文本中抽取春秋时期的战争信息的方法,并组织成可量化的数据。证明从战争的角度来展示春秋时期诸侯国之间的邦交关系是可行的,同时也展现了数字人文技术在人文历史领域研究中的可行性与巨大潜能。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义]在数字化的前提下对《春秋经传引得》的错漏进行识别和校订,以量化数据为依据整体考察和分析其编纂质量,并得以管窥手工时代中国古代典籍索引扛鼎之作《汉学引得丛刊》的编纂质量,重新发现印本形态的古籍全文索引在数字时代的价值。[方法/过程]对《春秋经传引得》的经文、传文以及全部索引款目全面数字化,并逐项比对,找出并校订其中的错漏,记录并统计错漏的类型、数量,分析整体编纂质量。[结果/结论]《春秋经传引得》确有极少的错漏,款目差错率仅为万分之一左右,编纂质量堪称手工时代的巅峰,当得起学界的高度赞誉,可作为数字化语料的高质量基础语料。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 学术图书是呈现科学研究活动成果的重要工具,也是人类社会信息活动中的重要信息资源,对学术图书进行影响力评价有利于学术图书得到充分的利用。[方法/过程] 在吸取前人研究成果的基础上设计一套完整、全面的中文人文社会科学学术图书影响力评价体系,从图书的学术影响力和社会影响力两方面出发,设置多级评价指标,并选取CBKCI中图书馆情报与文献学领域的103本学术图书作为研究样本,收集相应的指标数据,采用CRITIC赋权法、TOPSIS法对103个样本图书进行影响力评价实证。[结果/结论] 研究结果表明,本文提出的中文人文社会科学学术图书影响力评价指标和方法,考虑了科研学者、读者、图书本身等因素,较全面地反映出学术图书影响力的各个方面,具有一定的易用性和可行性。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 我国农作物种植历史悠久,分析古代农作物的时间分布与发展演化情况对优化现代农业种植结构具有重要意义。[方法/过程] 提出一套深入典籍文本内容的农作物时间分布及演化特征分析方法流程,主要包括语料获取与数字化、分词与实体关系抽取、时间分布特征分析、演化特征分析4部分,并选取15本史书中的《食货志》文本进行实证分析。[结果/结论] 基于《食货志》文本的分析结果得到历史学、经济学、文献学等多学科相关研究资料的佐证,验证了方法的可行性与有效性,可以为基于典籍文本的古代农作物时间分布及演化特征分析提供借鉴。但未来还需要在提高自动化水平、扩大研究样本、细化事件类型等方面进一步优化方法流程。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 异文是古籍中的常见现象,也是重要研究对象。传统的古籍校勘是从大量古籍文献中人工查找校勘资料包括异文等,不仅耗时、费力、工作量大,而且找到的数据未必精准全面。通过计算机实现异文的自动发掘,可以从更大规模的语料中获取有效信息。并且,结合异文自动发掘的校勘方式可以实现穷尽式检索,对于古籍他校法具有重要意义,为新时期古籍校勘研究提供了新思路和新方法。[方法/过程] 本研究以《春秋》及"春秋三传"作为实验语料,引入常用于文本翻译领域的平行语料库思想,结合深度学习算法,对LSTM、BERT模型与较为经典的SVM模型进行比较实验,并对两部古籍中用不同表述描述同一事件的同事异文相关内容展开进一步探索和讨论。[结果/结论] 实验得到适用于"春秋三传"的同事异文自动发掘深度学习模型,证明深度学习等新兴技术融合到古籍知识库构建等研究中的可行性,同时,深度学习技术和平行语料库思想的结合在异文研究中能够发挥较大作用,对数字人文在汉语言文学研究中的应用提供实践支撑。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2022-01-06
摘要: [目的/意义]对图情档及相关学科而言,国务院学位委员会办公室2021年新版学科专业目录(征求意见稿)的发布,不仅事关一级学科的更名,更是我们学科内涵与学科体系的重大变革。为此,需要解析和思考这种更名的重要意义及未来学科建设策略。[方法/过程]通过文献调研与历史分析,梳理“信息资源管理”的发展演变,加强对一级学科更名的理性认识,提出新的一级学科建设策略。[结果/结论]需要学界业界加大对作为一级学科的“信息资源管理”概念与内涵、意义与价值、范畴与边界、方法与技术、学科与理论、应用与成效、规划与未来的认知与研究,推动一级学科从名称(名)到内容(实)的根本性转变。