您当前的位置:首页 > 论文浏览

1. chinaXiv:201711.01951 [pdf]

多特征知识下的食品安全事件实体抽取研究

王东波; 吴毅; 叶文豪; 刘睿伦
分类: 图书馆学、情报学 >> 情报学

【目的】从大规模食品安全事件当中抽取食品安全事件实体。【方法】基于已发生的食品安全事件, 结合情报学数据获取、标注和组织的方法, 融合食品安全事件实体的多种分布特征知识, 通过条件随机场模型, 构建食品安全事件语料并从中抽取相应的实体。【局限】在食品安全事件实体抽取过程中所制定的特征模板在领域化迁移上具有一定的局限性。【结果】在已有1500万字经过标注的食品安全事件语料的规模上, 通过统计食品安全事件实体的内部和外部特征, 基于条件随机场机器学习模型, 构建了食品安全实体的抽取模型, 该模型最高的F 值达到91.94%。【结论】通过对食品安全事件实体抽取结果的分析, 在食品这一领域化的语料上, 基于条件随机场进行实体抽取是可行的。

提交时间: 2017-11-08 来自合作期刊:《数据分析与知识发现》 点击量216下载量155 评论 0

2. chinaXiv:201711.01252 [pdf]

采用连续词袋模型(CBOW)的领域术语自动抽取研究

姜霖; 王东波
分类: 图书馆学、情报学 >> 情报学

【目的】更准确便捷地完成术语词汇的自动抽取。【方法】利用CBOW 模型计算构成术语的各个词部件的向量空间模型。通过词向量之间的余弦相似度衡量术语词汇内部各个词部件的关联度。利用PageRank 算法计算候选词汇的领域代表性并排序, 通过阈值的设定, 抽取出更为具有领域代表性的术语词汇。【结果】在以自然语言处理领域内的论文摘要作为数据集的实验中取得较高的准确率和召回率。【局限】测试的数据训练集偏小,而数据集的训练效果直接影响实验的效果。【结论】实验结果表明利用CBOW 模型完成术语的抽取工作是一个较为合理、可行的方法。

提交时间: 2017-10-11 来自合作期刊:《数据分析与知识发现》 点击量382下载量343 评论 0

  [1 页/ 2 条记录]