您当前的位置:首页 > 论文浏览

1. chinaXiv:201712.01362 [pdf]

中文科技论文图表摘要设计研究* ——以图书情报领域为例

包楚晗; 贾丹萍; 何 琳; 马晓雯; 艾毓茜
分类: 图书馆学、情报学 >> 情报学

【目的】探究与设计基于图书情报领域、中文科技论文图表摘要构建的结构, 并制定构建规则。【方法】 通过调研的方法, 结合人工标注结果及图情领域中文科技论文、图表的特征, 设计摘要框架并规定构建规则, 最 终设计评测系统, 基于 SPSS 统计结果分析揭示该摘要系统的表现。【结果】本研究构建的图表摘要在图片信息 理解程度、效率、确信度等维度上的表现均优于现有图片–文本组合模式。【局限】图片信息覆盖率有待提高、 未考虑清楚图表类型所带来的差异、未完全实施自动化标引。【结论】依据本研究设计的中文科技论文图表摘要 构建结构与规则所形成的图表摘要能有效提高用户对文献主要内容的准确理解度。

提交时间: 2017-12-05 来自合作期刊:《数据分析与知识发现》 点击量565下载量153 评论 0

2. chinaXiv:201711.01951 [pdf]

多特征知识下的食品安全事件实体抽取研究

王东波; 吴毅; 叶文豪; 刘睿伦
分类: 图书馆学、情报学 >> 情报学

【目的】从大规模食品安全事件当中抽取食品安全事件实体。【方法】基于已发生的食品安全事件, 结合情报学数据获取、标注和组织的方法, 融合食品安全事件实体的多种分布特征知识, 通过条件随机场模型, 构建食品安全事件语料并从中抽取相应的实体。【局限】在食品安全事件实体抽取过程中所制定的特征模板在领域化迁移上具有一定的局限性。【结果】在已有1500万字经过标注的食品安全事件语料的规模上, 通过统计食品安全事件实体的内部和外部特征, 基于条件随机场机器学习模型, 构建了食品安全实体的抽取模型, 该模型最高的F 值达到91.94%。【结论】通过对食品安全事件实体抽取结果的分析, 在食品这一领域化的语料上, 基于条件随机场进行实体抽取是可行的。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量303下载量203 评论 0

3. chinaXiv:201711.01961 [pdf]

面向食品安全突发事件汉语分词的特征选择及模型优化研究

张越; 王东波; 朱丹浩
分类: 图书馆学、情报学 >> 情报学

【目的】在食品安全领域中, 建立相关数据库对食品安全的监管和控制都会有很大的帮助, 自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法, 应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点, 对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验, 得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出, 特征选择时并不是特征越多分词效果越好, 会出现特征干扰的情况, 在二三字词占46.62%的食品安全突发事件语料中, 特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验, 选择出在本文研究的语料库自动分词中最优的特征和特征模板, 在5Tag 特征标记下配合对应特征模板对目标语料分词的F 值达到92.88%。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量299下载量177 评论 0

4. chinaXiv:201711.01991 [pdf]

面向食品安全突发事件汉语分词的特征选择及模型优化研究

张越; 王东波; 朱丹浩
分类: 图书馆学、情报学 >> 情报学

【目的】在食品安全领域中, 建立相关数据库对食品安全的监管和控制都会有很大的帮助, 自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法, 应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点, 对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验, 得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出, 特征选择时并不是特征越多分词效果越好, 会出现特征干扰的情况, 在二三字词占46.62%的食品安全突发事件语料中, 特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验, 选择出在本文研究的语料库自动分词中最优的特征和特征模板, 在5Tag 特征标记下配合对应特征模板对目标语料分词的F 值达到92.88%。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量304下载量187 评论 0

  [1 页/ 4 条记录]