分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】调研 owl:sameAs 连接在真实数据网络中的配置和应用情况。【方法】从 BTC 2014 数据集中抽取 部分数据, 应用统计学方法对样本数据构成的 sameAs 网络进行结构分析、域名分析和实例类型分析。【结果】 数据分析结果表明, 真实数据网络中 sameAs 连接较稀疏, 等同实体网络中大多数实体只建立了单个连接。【局限】 样本数据数量有限, 未能更全面地深入分析。【结论】该研究分析可以为关联数据中基于实例水平的数据集成、 本体对齐、知识发现以及跨数据集查询等提供参考。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-30 合作期刊: 《数据分析与知识发现》
摘要: 【目的】调研 owl:sameAs 连接在真实数据网络中的配置和应用情况。【方法】从 BTC 2014 数据集中抽取 部分数据, 应用统计学方法对样本数据构成的 sameAs 网络进行结构分析、域名分析和实例类型分析。【结果】 数据分析结果表明, 真实数据网络中 sameAs 连接较稀疏, 等同实体网络中大多数实体只建立了单个连接。【局限】 样本数据数量有限, 未能更全面地深入分析。【结论】该研究分析可以为关联数据中基于实例水平的数据集成、 本体对齐、知识发现以及跨数据集查询等提供参考。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-27 合作期刊: 《图书情报工作》
摘要: [目的/意义]机构名称的数目多且较为繁杂,机构名称归一化可将同一机构的规范名称以及不同时段、不同表达形式的非规范名称汇集在一起,提高查询检索的查全率和查准率;有利于建立与其他系统之间的互操作,实现资源的共享。[方法/过程]在分析机构名称字符串的特点和基于K-means算法的基础上,利用编辑距离算法实现一级机构名称的初步聚类,然后利用初步聚类结果并基于TF-IDF算法计算机构名称各词项的权值,从而基于K-means算法将机构名称围绕聚类中心抱团聚簇,并对每一个簇的机构名称赋予唯一标识符。[结果/结论]该方法可实现同一机构实体不同形式的规范名称的归一,提高机构名称聚类的准确率,但对K取值、距离测度方法的选取仍有待优化。