注册 登录
EN | CN
  • 首页
  • 论文提交
  • 论文浏览
  • 论文检索
  • 个人中心
  • 帮助
按提交时间
  • 1
按主题分类
  • 1
按作者
  • 1
  • 1
  • 1
  • 1
按机构
  • 1
  • 1
  • 1
  • 1
当前资源共 1条
隐藏摘要 点击量 时间 下载量
  • 1. ChinaXiv:202308.00275
    下载全文

    序列标注模型中的字粒度特征提取方案研究——以CCKS2017:Task2临床病历命名实体识别任务为例

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-08-26 合作期刊: 《图书情报工作》

    孙安 于英香 罗永刚 王祺

    摘要: [目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。

     点击量 1143  下载量 432  评论 0
友情链接 : PubScholar 哲学社会科学预印本
  • 运营单位: 中国科学院文献情报中心
  • 制作维护:中国科学院文献情报中心知识系统部
  • 邮箱: eprint@mail.las.ac.cn
  • 地址:北京中关村北四环西路33号
招募预印本评审专家 许可声明 法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心