ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2023
13
2017
2

按主题分类

按作者

按机构

当前资源共 15条

隐藏摘要

点击量

时间

下载量

您选择的条件: 南京农业大学信息科学技术学院南京 210095

1. ChinaXiv:202308.00608
下载全文

基于科学数据的合作网络研究——以ClinicalTrials.gov临床试验数据为例

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-08-27 合作期刊: 《图书情报工作》

徐潇洁何琳邵波

摘要： [目的/意义]基于科学数据构建合作网络，并与传统出版物合作网络进行比较，从网络分析层面解读两个合作网络的差异，为科学数据管理工作提供借鉴。[方法/过程]以ClinicalTrials.gov网站的临床科学数据库为例，利用爬虫抓取该网站上传统论文题录信息以及临床试验信息的元数据并分别构建合作网络，通过复杂网络分析比较试验合作机构网络与论文合作机构网络之间的异同。[结果/结论]基于科学数据集和论文数据集的元数据构建的合作网络，与仅从论文数据集中提取元数据构建的网络相比，前者能够展现更丰富准确的合作信息，从而揭示科学数据管理和开放共享的重要性。

点击量 533 下载量 187 评论 0
2. ChinaXiv:202308.00643
下载全文

基于深度学习的数据科学招聘实体自动抽取及分析研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-08-27 合作期刊: 《图书情报工作》

王东波胡昊天周鑫朱丹浩

摘要： [目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成。从数据科学招聘的公告信息中，抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态，而且有助于改进数据科学教学的内容。[方法/过程]基于各大招聘网站职位招聘公告，结合情报学的数据获取、标注和组织方法，构建数据科学招聘语料库并从中抽取相应的实体进行分析与研究。[结果/结论]在搜集到的11 000篇经过标注的职位招聘公告语料的基础上，基于Bi-LSTM-CRF、CRF和Bi-LSTM模型，对数据科学招聘实体的抽取任务进行性能的对比，确定最终的数据科学招聘实体自动抽取模型，设计数据科学招聘实体自动抽取平台，并构建数据科学招聘实体网络。

点击量 443 下载量 158 评论 0
3. ChinaXiv:202308.00259
下载全文

面向摘要结构功能划分的模型性能比较研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-08-26 合作期刊: 《图书情报工作》

王东波陆昊翔周鑫朱丹浩

摘要： [目的/意义]摘要作为学术论文中能够简明扼要地说明研究目的、研究方法和最终结论的陈述部分，具有较高的探究价值和意义。[方法/过程]选取长短期记忆网络（Long Short-Term Memory）、支持向量机（Support Vector Machine）、LSTM-CRF和CNN-CRF 4种模型，对3 672篇情报学领域的期刊论文进行摘要划分识别研究。[结果/结论]长短期记忆网络模型识别F值最高为69.15%，LSTM-CRF神经网络模型最高F值为88.76%，RNN-CRF模型最高F值达到89.10%，支持向量机分类器分类宏观F值最高为72.04%。该实验结果对图书情报领域的学术论文结构功能划分实验模型选取有较高的参考价值。

点击量 620 下载量 214 评论 0
4. ChinaXiv:202307.00295
下载全文

新时代人民日报分词语料库构建、性能及应用(三)-句长与词的分析比较

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

黄水清王东波

摘要： [目的/意义] 基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布，有助于了解当代汉语文本的语言学特征，进而开展自然语言处理和文本挖掘研究。[方法/过程] 在2018年1月人民日报分词语料的基础上，结合1998年1月人民日报分词语料，确定统计中所使用的6种句子类别，统计和分析字与词单位上的句子长度分布，并基于齐普夫定律揭示词汇静态分布情况。[结果/结论] 从字词维度上的句子长度分布情况和词汇的齐普夫分布状态上看，随着时间的推移，在1998和2018两个语料上，句子的长度和词汇的分布均发生变化，但这种变化又是延续的、有关联的。

点击量 514 下载量 140 评论 0
5. ChinaXiv:202307.00312
下载全文

新时代人民日报分词语料库构建、性能及应用(二)-深度学习自动分词模型构建

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

黄水清王东波

摘要： [目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型，不仅有助于为高性能分词模型的构建提供经验，也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型（Bi-LSTM）和双向长短时记忆与条件随机场融合模型（Bi-LSTM-CRF）的基础上，阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况，分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型，并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看，所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上，Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型，但这一差距非常细微。

点击量 470 下载量 206 评论 0
6. ChinaXiv:202307.00327
下载全文

新时代人民日报分词语料库构建、性能及应用(一)-语料库构建及测评

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

黄水清王东波

摘要： [目的/意义] 构建与新时代相适应的人民日报分词语料库，为中文信息处理提供最新的精标注语料，也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上，描述所构建新时代人民日报语料库的数据源、标注规范和流程，通过构建分词自动标注模型测评语料库的性能，并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范，规模大，时间跨度长。选取其中的2018年1月部分，基于条件随机场构建分词模型，与1998年1月人民日报语料进行性能测评与对比，所得到的各项具体测评指标表明，新时代人民日报语料整体性能突出，1998年语料无法替代，当前构建该语料库非常必要。

点击量 517 下载量 178 评论 0
7. ChinaXiv:202307.00403
下载全文

图书馆数字阅读推广的发展现状与对策

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

彭爱东邢思思茆意宏

摘要： [目的/意义]对国内图书馆数字阅读推广的发展现状进行调研，以期为未来图书馆数字阅读推广的发展提供建议。[方法/过程]以国内公共图书馆和高校图书馆为主要研究对象，以图书馆网站、微信公众号、微博账号等作为数据来源，利用网络调查法、文献调查法对我国图书馆数字阅读推广的现状进行调研。[结果/结论]目前我国图书馆数字阅读推广发展较快，数字阅读推广的模式包括活动、出版物、人际传播、广告、课程、导航与推荐等，但发展不均衡，以活动模式、推荐模式为主，图书馆数字阅读推广还有较大的发展空间。

点击量 347 下载量 146 评论 0
8. ChinaXiv:202307.00544
下载全文

公共图书馆服务供给政社合作关系研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

李杨

摘要： [目的/意义]在当前政府职能转变的背景下，政府与社会组织合作提供公共图书馆服务是公共图书馆管理体制改革的有效措施，也是公共图书馆事业发展的重要趋势。研究政府与社会组织的合作关系，不仅能够丰富相关理论成果，而且能为公共图书馆服务供给政社合作的发展提供参考。[目的/意义]通过文献调研、网络调研与实地调研相结合，论述公共图书馆服务供给政社合作关系的概念及特征，对公共图书馆服务供给政社合作关系中各主体的角色、政社合作关系的成因、政社合作关系的类型及形成过程进行深入分析。在此基础之上，提出公共图书馆服务供给政社合作关系可持续发展的对策。[结果/结论]良好合作关系的建立需要端正合作动机，完善合作制度，规范合作行为。

点击量 365 下载量 143 评论 0
9. ChinaXiv:202304.00148
下载全文

全民防控疫情期间在线阅读服务观察与思考

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

茆意宏

摘要： [目的/意义] 对全民防控新冠肺炎疫情时期国内在线阅读服务的举措进行总结与分析，为我国在线阅读服务发展提供建议。[方法/过程] 借助微信、微博、网站等平台在线跟踪出版社、图书馆等阅读服务机构在防控疫情期间开展在线阅读服务的举措，对其表现进行总结与分析。[结果/结论] 大疫当前，各类阅读服务机构均将服务重心转移到在线服务，并根据各类读者的多元阅读需求，加大系统保障力度，紧急出版防疫出版物，扩大网上优质读物传播。服务效果总体表现不错，但也暴露出一些问题，人们需要变压力为动力，进一步完善在线阅读服务体系，提高综合性阅读服务能力。

点击量 222 下载量 94 评论 0
10. ChinaXiv:202304.00299
下载全文

基于社会网络分析的《左传》战争计量及可视化研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

范文洁李忠凯黄水清

摘要： [目的/意义] 信息技术的发展推动了数字人文在社会人文领域的广泛应用，借助于便捷高效的计算技术从海量的数据资源和非结构化的文本中挖掘出潜在的信息，并以更加直观和清晰的方式呈现给用户。[方法/过程] 以《左传》中所描述的战争为研究对象，从已经获取的战争句子中抽取出每一场战争的战略进攻方和战略防守方。从数字人文的视角出发，对使用社会网络分析方法挖掘春秋战争格局变化的可行性进行了探究，在此基础上，将春秋时期的诸侯国根据战争合作与战争对抗关系进行了社群划分，并对社群与核心国家逐一分析与讨论。同时运用html、css和E-Charts三种技术将《左传》中的战争进行动态展示。[结果/结论] 提供一种从非结构化的《左传》文本中抽取春秋时期的战争信息的方法，并组织成可量化的数据。证明从战争的角度来展示春秋时期诸侯国之间的邦交关系是可行的，同时也展现了数字人文技术在人文历史领域研究中的可行性与巨大潜能。

点击量 296 下载量 126 评论 0
11. ChinaXiv:202304.00337
下载全文

与用户共创图书馆的知识服务价值——云舟知识空间的用户智慧融入案例及其启示

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

李杨郑德俊

摘要： [目的/意义] 用户参与知识服务的价值越来越受到学界的关注。分析数字知识空间用户智慧融入的案例，能够为图书馆知识服务创新提供新的理念和方法。[方法/过程] 从价值共创视角，运用案例分析法，对云舟知识空间用户智慧融入的用户角色定位、用户智慧融入的阶段性策略、用户智慧融入的保障机制进行分析，总结用户智慧融入的模式及优势。[结果/结论] 云舟知识空间用户智慧融入对图书馆知识服务创新的启示主要有3个方面：重视用户智慧融入的价值，需求侧与供给侧共同发力；找准用户的价值导向，实施差异化激励措施；关注用户的价值体验，建立多元化互动机制。

点击量 272 下载量 148 评论 0
12. ChinaXiv:202304.00375
下载全文

智慧阅读服务概念界定及国内相关研究评析

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

茆意宏朱玲玲韩燕

摘要： [目的/意义] 对智慧阅读服务概念进行界定，梳理国内近3年的相关研究成果，为该领域的研究发展提供参考。[方法/过程] 在CNKI对2017年以来国内的相关研究成果进行检索，梳理相关研究文献，分析研究热点，归纳智慧阅读服务的分析框架，并对未来的研究进行展望。[结果/结论] 2017年以来国内智慧阅读服务研究成果主要包括智慧阅读服务系统与平台、用户、服务内容与策略、服务评价、服务管理等，智慧阅读服务内容与策略、用户是其中两个研究热点方向，研究较多的热点信息技术是大数据与人工智能技术、虚拟现实技术。智慧阅读服务将是未来的研究热点，技术与用户是未来研究的重点方向。

点击量 250 下载量 139 评论 0
13. ChinaXiv:202304.00710
下载全文

数字人文下的典籍深度学习实体自动识别模型构建及应用研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

杜悦王东波江川徐润华李斌许超徐晨飞

摘要： [目的/意义] 典籍是我国传统文化、思想和智慧的载体，结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别，对于后续应用研究具有重要意义。[方法/过程] 基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库，分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型，从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论] 在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%，证实了深度学习应用于大规模文本数据集的可行性。

点击量 337 下载量 170 评论 0
14. ChinaXiv:201711.01951
下载全文

多特征知识下的食品安全事件实体抽取研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

王东波吴毅叶文豪刘睿伦

摘要：【目的】从大规模食品安全事件当中抽取食品安全事件实体。【方法】基于已发生的食品安全事件, 结合情报学数据获取、标注和组织的方法, 融合食品安全事件实体的多种分布特征知识, 通过条件随机场模型, 构建食品安全事件语料并从中抽取相应的实体。【局限】在食品安全事件实体抽取过程中所制定的特征模板在领域化迁移上具有一定的局限性。【结果】在已有1500万字经过标注的食品安全事件语料的规模上, 通过统计食品安全事件实体的内部和外部特征, 基于条件随机场机器学习模型, 构建了食品安全实体的抽取模型, 该模型最高的F 值达到91.94%。【结论】通过对食品安全事件实体抽取结果的分析, 在食品这一领域化的语料上, 基于条件随机场进行实体抽取是可行的。

点击量 2585 下载量 1439 评论 0
15. ChinaXiv:201711.01252
下载全文

采用连续词袋模型(CBOW)的领域术语自动抽取研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-10-11 合作期刊: 《数据分析与知识发现》

姜霖王东波

摘要：【目的】更准确便捷地完成术语词汇的自动抽取。【方法】利用CBOW 模型计算构成术语的各个词部件的向量空间模型。通过词向量之间的余弦相似度衡量术语词汇内部各个词部件的关联度。利用PageRank 算法计算候选词汇的领域代表性并排序, 通过阈值的设定, 抽取出更为具有领域代表性的术语词汇。【结果】在以自然语言处理领域内的论文摘要作为数据集的实验中取得较高的准确率和召回率。【局限】测试的数据训练集偏小,而数据集的训练效果直接影响实验的效果。【结论】实验结果表明利用CBOW 模型完成术语的抽取工作是一个较为合理、可行的方法。

点击量 2772 下载量 1847 评论 0