分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2022-07-19
摘要: 当标注数据较少时,现有模型受训练数据量少的限制,参数没有拟合到预期效果,导致在低资源命名实体识别任务中模型识别性能不佳。本文通过采用K折交叉验证法,使模型较好拟合数据。此外,本文在BiLSTM-CRF模型基础上融合多层字符特征信息和自注意力机制,结合K折交叉验证法,构建了CharBiLSTM-Att-CRF模型。本文提出的CharBiLSTM-Att-CRF模型在20%的CONLL2003和20%的BC5CDR的数据集上,F1值在BiLSTM-CRF模型基础上分别提升了7.00%、4.08%。该模型能较好地适应低资源命名实体识别任务。
分类: 计算机科学 >> 计算机科学技术其他学科 提交时间: 2022-01-02
摘要: [目的]当标注数据较少时,现有模型受训练数据量少的限制,参数没有拟合到预期效果,导致在低资源命名实体识别任务中模型识别性能不佳。[方法]本文提出一种融入伯努利分布(Bernoulli distribution)的新型损失函数,让模型较好拟合数据。此外,本文在BiLSTM-CRF模型基础上融合多层字符特征信息,结合基于伯努利分布的新型损失函数,构建了BiLSTM-BCRF模型。[结果]本文提出的BiLSTM-BCRF模型在20%的CoNLL2003和20%的BC5CDR的数据集上,F1值在BiLSTM-CRF模型基础上分别提升了6.16%、3.35%。[结论]该模型能较好地适应低资源命名实体识别任务。[局限]该模型识别专有名词的性能还有待提升。