分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】为解决已有方法中单词特征表示不具有语义信息这一问题, 对词嵌入表示特征在关系抽取中的作 用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征, 利用朴素贝叶斯模型、决策树 模型和随机森林模型进行对比实验, 并选出代表全部特征的有效特征子集。【结果】使用全部特征时, 决策树算 法的准确率达到0.48, 关系抽取效果最佳, Member-Collection( E2 , E1 )类型关系的 F1 值达到0.70, 特征排序结果表 明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高, 以及词向量训练及 方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性, 词嵌入表示级别特征在实体 关系抽取问题中可以发挥重要作用。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2016-06-12
摘要: 本文以文本处理中的基本任务之一--实体名称规范为主题,阐明了实体名称规范中两[摘要]本文以文本处理中的基本任务之一--实体名称规范为主题,阐明了实体名称规范中两种类型的任务,一个实体多个名称的实体共指消解问题和一个名称指代不同实体的实体歧义问题,结合这两类任务,综合分析了当前的相关研究成果,重点介绍了当前解决实体名称规范时典型的思路与方法,推动实体名称规范研究的重要的项目与重要评测会议,并结合当前研究中仍存在的问题,分析探讨了实体名称规范的研究趋势。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2016-04-12
摘要: 时时更新的网络资源蕴含着丰富的信息,对OSTP网站上2010年2月以来的36个特色主题从领域分布、出现时间和存在时长进行统计分析,按领域对特色主题下的124份重要报告内容进行深度解读,以揭示奥巴马政府近5年来的发展重点和政策导向作用,以期为中国未来的发展提供参考信息。