分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 在全球e-science发展背景下,科学数据管理实践日益呈现出对跨学科思维和方法的渴求,运用档案学领域的相关理论和方法有利于提升科学数据保存和共享重用的质量和效率。[方法/过程] 采用文本分析法和综合集成法,对OCLC、DCC、RDA、ICA四个国际组织相关文献成果中涉及的档案学理论和方法及相关科学数据管理工作进行了文本编码和归纳分析。[结果/结论] 档案学视角下的数字文档连续性保障、背景信息管理、鉴定处置和长期保存对科学数据管理具有支撑作用,建议通过开展跨学科合作对话、建立跨机构连续性管理制度框架、培育具有档案专长的数据馆员等路径提升科学数据管理效能。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank 模型, 改进单文档关键词抽取效果。【方法】利用Word2Vec 模型基于维基百科中文数据, 生成词向量模型, 对TextRank 词图节点的词向量进行聚类以调整簇内节点的投票重要性, 结合节点的覆盖和位置因素, 计算节点之间的随机跳转概率, 生成转移矩阵, 最终通过迭代计算获得节点的重要性得分, 选取前TopN 个词语生成关键词。【结果】当TopN≤7 时, 词向量聚类加权方法均优于对比方法; TopN=3 时, F 值取得最大值, 比先前最优结果增量提升了3.374%; TopN>7 时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank 模型, 改进单文档关键词抽取效果。【方法】利用Word2Vec 模型基于维基百科中文数据, 生成词向量模型, 对TextRank 词图节点的词向量进行聚类以调整簇内节点的投票重要性, 结合节点的覆盖和位置因素, 计算节点之间的随机跳转概率, 生成转移矩阵, 最终通过迭代计算获得节点的重要性得分, 选取前TopN 个词语生成关键词。【结果】当TopN≤7 时, 词向量聚类加权方法均优于对比方法; TopN=3 时, F 值取得最大值, 比先前最优结果增量提升了3.374%; TopN>7 时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】利用维基百科知识库生成自由文本的层次语义路径。【方法】针对维基百科的中文导出数据, 构建层次结构的树状图; 进而通过显性语义分析将自由文本表示为文章概念向量, 通过文章–类别关联关系将文本映射到树状图中构成种子类别节点, 再通过种子节点开始的信息扩散和自顶向下的路径选择与优化, 生成层次路径。【结果】首条层次路径的平均相关度在测试集上达到54.10%, 前20 条路径整体上按相关度降序排序。【局限】未分析显性概念向量在保留不同概念数量时对生成路径质量的影响。【结论】基于维基百科知识库所生成的层次路径结果能够反映文本的主要语义信息。