您当前的位置: > 详细浏览

基于IIPC开源软件拓展构建国际重要科研机构Web存档系统

摘要:【目的】构建国际重要科研机构 Web 存档系统。【方法】基于 IIPC 开源软件拓展采集存档框架, 在采集端采用三层扩展策略, 在采集客户端增加自动上传及报告等管理功能, 开发WARC文件内容解析模块, 利用Solr进行索引。【结果】在采集端实现三层扩展, 通过增加采集客户端功能提高存档流程自动化程度, 通过增加的WARC文件内容解析功能抽取更多信息, 实现索引及检索服务的扩展。【局限】没有使用大规模采集存档进行检验。【结论】扩展后的采集存档框架初步具备分布式、可扩展、全自动化的特点。

版本历史

[V1] 2016-02-02 13:27:55 chinaXiv:201602.00006V1 下载全文
点击下载全文
同行评议状态
待评议
许可声明
metrics指标
  • 点击量10329
  • 下载量2922
评论
分享
邀请专家评阅