分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2024-04-18
摘要: 目的/意义 随着数据驱动时代的发展和数据密集型科研范式的兴起,数据成为科技决策、科研管理和科研创新活动的关键要素。[方法/过程]本文引入需求侧管理概念,立足于数据资源基础,开展需求侧管理与分析,构建基于用户的数据服务需求模型,分析不同类型用户的数据服务需求,探讨构建了用户需求与数据服务双流协同的服务框架体系。引入生态系统及其相关发展理论构建数据服务生态,剖析用户、学科馆员、数据、技术和环境之间的关系。[结果/讨论]基于数据服务实践与探索,提出了数据服务体系的构建思路,为大数据时代提供精准、高效的数据服务提供参考借鉴,推动数据服务的可持续发展。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 在对中文文本进行摘要提取时,传统的TextRank算法只考虑节点间的相似性,忽略了文本的其他重要信息。首先,针对中文单文档,在现有研究的基础上,使用TextRank算法,一方面考虑句子间的相似性,另一方面,使TextRank算法与文本的整体结构信息、句子的上下文信息等相结合,如文档句子或者段落的物理位置、特征句子、核心句子等有可能提升权重的句子,来生成文本的摘要候选句群;然后对得到的摘要候选句群做冗余处理,以除去候选句群中相似度较高的句子,得到最终的文本摘要。最后通过实验验证,该算法能够提高生成摘要的准确性,表明了该算法的有效性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》
摘要: 如何快速高效地识别新词是自然语言处理中一项非常重要的任务,针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题,最后通过实验验证了该算法的有效性。