Current Location:home > Detailed Browse

Article Detail

网络科技信息监测中富文档识别与信息提取技术研究

Submit Time: 2016-06-13
Author: 张敏 1 ; 刘建华 1,2 ; 谢靖 1 ;
Institute: 1.中国科学院文献情报中心; 2.中国科学院大学;

Abstracts

本论文围绕富文档载体类型的鉴别、元数据的提取等开展相应的实际应用探索。笔者通过开源工具PDFBox以及Tika对不同类型的富文档元数据及正文内容进行提取,取得了很好的实际效果,为科研人员提供了大量的有学术价值的情报资源。但是由于开源工具的局限性以及富文档特殊的文档结构,导致提取出来的元数据及正文内容准确率欠缺完美,笔者后续将对此进行研究并完善改进。
Download Comment Hits:16218 Downloads:842
From: 张敏
DOI:10.12074/201606.00100
Recommended references: 张敏,刘建华,谢靖.(2016).网络科技信息监测中富文档识别与信息提取技术研究.[ChinaXiv:201606.00100] (Click&Copy)
Version History
[V1] 2016-06-13 08:44:09 chinaXiv:201606.00100V1 Download
Related Paper

Download

Current Browse

Change Subject Browse

Cross Subject Browse

  • - NO