Current Location:home > Detailed Browse

Article Detail

一种基于BERT和文本相似度的先进的ICD9术语标准化方法

Submit Time: 2020-10-27
Author: 刘宜佳 1 ; 纪斌 1 ; 余杰 1 ; 谭郁松 1 ; 马俊 1 ; 吴庆波 1 ;
Institute: 1.国防科技大学计算机学院;

Abstracts

ICD-9术语标准化任务旨在将医生在病历中记录的口语术语标准化为《国际疾病分类》(ICD-9)第九版中定义的标准术语。在本文中,我们首先提出一种基于BERT和文本相似度的方法(BTSBM),该方法将BERT分类模型与文本相似度计算算法相结合:1)使用N-gram算法为每种口语术语生成候选标准术语集(CSTS) ,用作下一步的训练数据集和测试数据集; 2)使用BERT分类模型对正确的标准术语进行分类。在这种BTSBM方法中,如果采用较大规模的CSTS作为测试数据集,则训练数据集也需要保持较大规模。但是,每个CSTS中只有一个正样本。因此,扩大规模将导致正负样本比例的严重失衡,这将严重降低系统性能。如果我们将测试数据集保持相对较小,则CSTS准确性(CSTSA)将大大降低,这将导致非常低的系统性能上限。为了解决上述问题,我们然后提出了一种优化的术语标准化方法,称为先进的BERT和基于文本相似性方法(ABTSBM),其中1)使用大规模初始CSTS来维持较高的CSTSA以确保较高的系统性能上限; 2)根据身体结构对CSTS进行降噪,以减轻正负样本的不平衡而不降低CSTSA; 3)引入focal loss损失函数以进一步促进正负样本的平衡。实验表明,ABTSBM方法的精度高达83.5%,比BTSBM高0.6%,而ABTSBM的计算成本比BTSBM低26.7%。
Download Download Attachment Comment Hits:1282 Downloads:156
From: 纪斌
DOI:10.12074/202010.00060
Journal:ICNC-FSKD2020
Recommended references: 刘宜佳,纪斌,余杰,谭郁松,马俊,吴庆波.(2020).一种基于BERT和文本相似度的先进的ICD9术语标准化方法.ICNC-FSKD2020.[ChinaXiv:202010.00060] (Click&Copy)
Version History
[V2] 2020-10-27 08:26:58 chinaXiv:202010.00060V2 Download
[V1] 2020-10-26 10:56:13 chinaXiv:202010.00060v1(View This Version) Download
Related Paper

Download

Current Browse

Cross Subject Browse

  • - NO