• 基于文本生成技术的历史古籍事件识别模型构建研究

    分类: 图书馆学、情报学 >> 情报过程自动化的方法和设备 提交时间: 2022-08-31

    摘要: 目的 对比序列标注方法和文本生成方法在历史古籍事件识别上的表现,以构建历史古籍事件识别模型。 方法 本文选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。又构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。 结果 在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,三个模型表现则是RoBERTa-SG > T5-SG > NEZHA-SG。Stacking集成学习大大提高了生成模型的识别效果。 局限 本文计算资源有限,Stacking-TRN-SG模型缺少在其他历史古籍语料中的应用研究。 结论 本文构建的Stacking-TRN-SG模型初步实现历史古籍的自动事件识别。