您当前的位置:首页 > 论文浏览
您选择的条件: 张智雄(24)

1. chinaXiv:201712.01374 [pdf]

融合词嵌入表示特征的实体关系抽取方法 研究*

张 琴; 郭红梅; 张智雄
分类: 图书馆学、情报学 >> 情报学

【目的】为解决已有方法中单词特征表示不具有语义信息这一问题, 对词嵌入表示特征在关系抽取中的作 用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征, 利用朴素贝叶斯模型、决策树 模型和随机森林模型进行对比实验, 并选出代表全部特征的有效特征子集。【结果】使用全部特征时, 决策树算 法的准确率达到0.48, 关系抽取效果最佳, Member-Collection( E2 , E1 )类型关系的 F1 值达到0.70, 特征排序结果表 明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高, 以及词向量训练及 方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性, 词嵌入表示级别特征在实体 关系抽取问题中可以发挥重要作用。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量903下载量445 评论 0

2. chinaXiv:201711.02436 [pdf]

预印本发展中的质量控制研究

刘静羽; 张智雄; 黄金霞; 彭媛媛
分类: 图书馆学、情报学 >> 图书馆学

质量控制是预印本服务中的重要环节。当前国际通行的预印本质量控制方法包括“上传者和作者的研究身份审核”“论文格式完整性审核”和“论文内容学术性和真实性审核”三方面;人工审核为主、机器审核为辅。中科院ChinaXiv预发布平台按国际通行模式建立了质量控制机制,包括论文常规审核制、领域专家评审制、论文开放评议制、问题论文撤稿制和非诚信作者名单制等。未来可在质量控制机制公开透明、充分发挥开放评议作用、加强国际交流方面做出改进。

提交时间: 2017-11-21 点击量1512下载量650 评论 0

3. chinaXiv:201711.02437 [pdf]

国际学术出版机构预印本政策分析

陈雪飞; 张智雄; 黄金霞
分类: 图书馆学、情报学 >> 图书馆学

预印本指尚未在同行评议学术期刊上正式发表的科研论文手稿。近年来,随着开放获取运动发展,预印本平台进入快速发展阶段。国际学术机构的预印本政策成为预印本发展的重要影响因素。本文将国际学术出版机构预印本政策划分为预印本投稿政策和预印本存档政策,梳理当前学术出版机构预印本政策的5种模式,并以web of science为数据源,选取国内科研作者发文量最多的期刊/出版机构进行典型分析,发现目前国际学术出版机构大多采取积极的预印本政策,不同的支持政策存在细微差异,并呈现一定的规律特点。最后,根据预印本政策分析结果,从科研作者、期刊、ChinaXiv角度提出相应建议。

提交时间: 2017-11-21 点击量2138下载量630 评论 0

4. chinaXiv:201711.02438 [pdf]

ChinaXiv预印本服务平台构建

王颖; 张智雄; 钱力; 叶志飞; 王玉菊; 黄金霞; 刘静羽; 陈雪飞
分类: 图书馆学、情报学 >> 图书馆学

为满足保护作者首发权、促进中国优秀科研成果率先保存并服务于中国科技界的需要,中国科学院科技论文预发布平台(ChinaXiv)开展项目建设,旨在鼓励科研人员第一时间在公共预印本平台上公布科研成果,通过该平台听取同行的评议和建议,促进更大范围的学术交流,并推动科研成果的开放获取。本文以工作实践为基础,从建设背景、系统建设及服务、领域拓展与培育、组织管理机制、宣传推广模式、建设现状以及未来发展等多个方面介绍了ChinaXiv如何构建国际通行模式规范运营的预印本服务平台,为其他预印本平台建设提供参考。

提交时间: 2017-11-21 点击量1478下载量666 评论 0

5. chinaXiv:201711.01937 [pdf]

科技文献检索系统语义丰富化框架的设计与实践

谢靖; 王敬东; 吴振新; 张智雄; 王颖; 叶志飞
分类: 图书馆学、情报学 >> 情报学

【目的】通过采用语义识别、知识关系计算等方法提升科技文献检索系统的服务功能和效果, 使之能够呈现更加丰富的知识化语义信息, 将更多的知识点和知识关系展现给用户。【方法】应用数据挖掘和关系计算工具,深度识别和抽取科技文献中的语义知识, 分析、计算、构建语义关系, 并将得到的语义知识和语义关系建立多维语义索引树, 设计新的数据组织呈现模型。【结果】研发语义丰富化检索示范系统, 在科技文献检索应用过程中充分揭示语义信息, 丰富检索体验。【局限】选取的试验数据集合不够充足, 缺少其他领域应用对比。【结论】本文模型设计给用户带来更多的知识层面的关联、揭示和导航, 提升了检索系统体验。同时分析了设计模型的不足之处, 探索改进方法。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量827下载量473 评论 0

6. chinaXiv:201711.01976 [pdf]

植物物种多样性语义知识抽取研究

刘建华; 王颖; 张智雄; 李传席
分类: 图书馆学、情报学 >> 情报学

【目的】拓展以物种为中心的植物物种多样性抽取框架, 探索实现语义知识抽取方法。【方法】结合当前生物多样性抽取的主流研究, 以物种为中心, 设计包含多种实体及实体间关系的知识抽取框架, 利用已有的众多专业数据库, 设计并实现相应的识别方法。【结果】设计以物种为核心的知识抽取框架, 探索实现多种实体及实体间关系的语义知识抽取方法, 拓展植物物种多样性领域抽取内容和思路。【局限】实体识别的完整性和准确性受底层知识库影响较大, 且实体间关系的类型局限于共现、上下位类、语法关系几类, 还需进一步研究。【结论】本研究拓展了植物物种多样性抽取内容和思路, 可有效支持语义检索、科学计算。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量678下载量474 评论 0

7. chinaXiv:201711.01999 [pdf]

植物物种多样性语义知识抽取研究

刘建华; 王颖; 张智雄; 李传席
分类: 图书馆学、情报学 >> 情报学

【目的】拓展以物种为中心的植物物种多样性抽取框架, 探索实现语义知识抽取方法。【方法】结合当前生物多样性抽取的主流研究, 以物种为中心, 设计包含多种实体及实体间关系的知识抽取框架, 利用已有的众多专业数据库, 设计并实现相应的识别方法。【结果】设计以物种为核心的知识抽取框架, 探索实现多种实体及实体间关系的语义知识抽取方法, 拓展植物物种多样性领域抽取内容和思路。【局限】实体识别的完整性和准确性受底层知识库影响较大, 且实体间关系的类型局限于共现、上下位类、语法关系几类, 还需进一步研究。【结论】本研究拓展了植物物种多样性抽取内容和思路, 可有效支持语义检索、科学计算。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量645下载量465 评论 0

8. chinaXiv:201711.00273 [pdf]

国际预印本平台的主要发展态势研究

张智雄; 黄金霞; 王颖; 刘静羽; 陈雪飞
分类: 图书馆学、情报学 >> 图书馆学

在开放获取、开放科研等大潮的影响下,预印本和基于预印本平台的学术交流得到科学界高度关注。本文对2013年以来国际上预印本平台建设的相关情况进行总结梳理,研究提出当前国际预印本发展的7个主要态势。研究表明,以arXiv、SSRN为代表的传统预印本平台通过可持续发展模式探索,赢来大发展;以BioRXiv、ChemRXiv等为代表的新预印本平台如雨后春笋般纷纷推出,带来预印本平台的大繁荣;而在科学界,基于论文手稿的预印本交流模式,得到学术团体、学协会、科技管理机构、基金组织,甚至是传统出版商的广泛认可,表明以学界自治为基础的预印本学术交流模式正在改变传统的以期刊为主体的学术交流模式。

提交时间: 2017-11-06 点击量7800下载量885 评论 2

9. chinaXiv:201711.01204 [pdf]

构建面向WARC 文档的全文索引系统

胡吉颖; 吴振新; 谢靖; 张智雄
分类: 图书馆学、情报学 >> 情报学

【目的】开发网络信息存档WARC 文件的解析与索引系统, 充分挖掘科技网站存档资源价值。【应用背景】在网络资源采集存档领域, WARC 文件格式获得了广泛的应用。随着网络信息的多样化, 已有的WARC 文件索引工具越来越难以满足用户多样性的查询需求。【方法】采用模块化方案解析WARC 文件。分析比较常用的索引工具, 选择Solr 平台开发全文索引系统。【结果】实现对WARC 文件基于内容的检索访问服务, 并在WARC的索引中增加了学科分类、资源类型和存档时间等分面检索内容, 从多维度对WARC 文件内容进行揭示。【结论】向用户提供了丰富的科技网站存档数据信息, 提高了用户检索访问效率。

提交时间: 2017-10-11 来自合作期刊:《数据分析与知识发现》 点击量483下载量352 评论 0

10. chinaXiv:201708.00227 [pdf]

科技文献检索系统语义丰富化框架的设计与实践

谢靖; 王敬东; 吴振新; 张智雄; 王颖; 叶志飞
分类: 图书馆学、情报学 >> 文献学

[目的/意义]本文期望通过采用数据挖掘、语义识别、知识关系计算等技术方法来提升科技文献检索系统的服务功能和效果,使之能够呈现更加丰富的知识化语义信息,将更多的知识点和知识关系展现给用户。[方法/过程] 本文应用semrap和clausIE数据挖掘和关系计算工具,识别和抽取科技文献中的语义对象,分析、计算、构建语义关系,并将得到的语义对象和语义关系设计建立多维语义索引树,设计了新的数据组织呈现模型。[结果/结论] 研发语义丰富化检索示范系统,在科技文献检索系统中充分揭示语义信息,给用户带来更多的知识内容层面的导航、关联、发掘和揭示,同时分析了设计模型的优势与不足。

提交时间: 2017-08-21 点击量933下载量719 评论 0

123  尾页  转到  [3 页/ 24 条记录]