Current Location:home > Browse

1. chinaXiv:202010.00060 [pdf]

一种基于BERT和文本相似度的先进的ICD9术语标准化方法

刘宜佳; 纪斌; 余杰; 谭郁松; 马俊; 吴庆波
Subjects: Computer Science >> Natural Language Understanding and Machine Translation

ICD-9术语标准化任务旨在将医生在病历中记录的口语术语标准化为《国际疾病分类》(ICD-9)第九版中定义的标准术语。在本文中,我们首先提出一种基于BERT和文本相似度的方法(BTSBM),该方法将BERT分类模型与文本相似度计算算法相结合:1)使用N-gram算法为每种口语术语生成候选标准术语集(CSTS) ,用作下一步的训练数据集和测试数据集; 2)使用BERT分类模型对正确的标准术语进行分类。在这种BTSBM方法中,如果采用较大规模的CSTS作为测试数据集,则训练数据集也需要保持较大规模。但是,每个CSTS中只有一个正样本。因此,扩大规模将导致正负样本比例的严重失衡,这将严重降低系统性能。如果我们将测试数据集保持相对较小,则CSTS准确性(CSTSA)将大大降低,这将导致非常低的系统性能上限。为了解决上述问题,我们然后提出了一种优化的术语标准化方法,称为先进的BERT和基于文本相似性方法(ABTSBM),其中1)使用大规模初始CSTS来维持较高的CSTSA以确保较高的系统性能上限; 2)根据身体结构对CSTS进行降噪,以减轻正负样本的不平衡而不降低CSTSA; 3)引入focal loss损失函数以进一步促进正负样本的平衡。实验表明,ABTSBM方法的精度高达83.5%,比BTSBM高0.6%,而ABTSBM的计算成本比BTSBM低26.7%。

submitted time 2020-10-27 Hits1282Downloads156 Comment 0

2. chinaXiv:202010.00061 [pdf]

基于span分类模型的医学概念抽取方法

汤勇韬; 余杰; 李莎莎; 纪斌; 谭郁松; 吴庆波
Subjects: Computer Science >> Natural Language Understanding and Machine Translation

最近,如何构造电子病历(EMR)引起了研究人员的极大关注。从EMR中提取临床概念是EMR结构化的关键部分。临床概念提取的性能将直接影响与EMR结构化相关的下游任务的性能。但是,主流方法中,序列标记模型有一些缺点。基于序列标记的临床概念提取方法不符合人类的语言认知模型。同时,这种方法产生的提取结果很难与下游任务耦合,这将导致错误传播并影响下游任务的性能。为了解决这些问题,我们提出了一种基于span分类的方法,通过考虑字符序列的整体语义而不是每个字符的语义来提高临床概念提取任务的性能。我们将此模型称为span分类模型。实验表明,span分类模型在2012年i2b2 NLP挑战赛的语料库中获得了最佳的微观平均F1得分(81.22%),并获得了与2010年i2b2 NLP挑战赛的SOTA相当的F1得分(89.25%)。此外,我们的方法的性能始终优于序列标记模型,例如BiLSTM-CRF模型和softmax分类器。

submitted time 2020-10-27 Hits1144Downloads137 Comment 0

  [1 Pages/ 2 Totals]