Current Location:home > Browse

1. chinaXiv:201711.01204 [pdf]

构建面向WARC 文档的全文索引系统

胡吉颖; 吴振新; 谢靖; 张智雄
Subjects: Library Science,Information Science >> Information Science

【目的】开发网络信息存档WARC 文件的解析与索引系统, 充分挖掘科技网站存档资源价值。【应用背景】在网络资源采集存档领域, WARC 文件格式获得了广泛的应用。随着网络信息的多样化, 已有的WARC 文件索引工具越来越难以满足用户多样性的查询需求。【方法】采用模块化方案解析WARC 文件。分析比较常用的索引工具, 选择Solr 平台开发全文索引系统。【结果】实现对WARC 文件基于内容的检索访问服务, 并在WARC的索引中增加了学科分类、资源类型和存档时间等分面检索内容, 从多维度对WARC 文件内容进行揭示。【结论】向用户提供了丰富的科技网站存档数据信息, 提高了用户检索访问效率。

submitted time 2017-10-11 From cooperative journals:《数据分析与知识发现》 Hits1595Downloads1050 Comment 0

2. chinaXiv:201602.00006 [pdf]

基于IIPC开源软件拓展构建国际重要科研机构Web存档系统

吴振新; 张智雄; 谢靖; 胡吉颖
Subjects: Library Science,Information Science >> Library Science

【目的】构建国际重要科研机构 Web 存档系统。【方法】基于 IIPC 开源软件拓展采集存档框架, 在采集端采用三层扩展策略, 在采集客户端增加自动上传及报告等管理功能, 开发WARC文件内容解析模块, 利用Solr进行索引。【结果】在采集端实现三层扩展, 通过增加采集客户端功能提高存档流程自动化程度, 通过增加的WARC文件内容解析功能抽取更多信息, 实现索引及检索服务的扩展。【局限】没有使用大规模采集存档进行检验。【结论】扩展后的采集存档框架初步具备分布式、可扩展、全自动化的特点。

submitted time 2016-02-02 Hits6341Downloads1919 Comment 0

  [1 Pages/ 2 Totals]