分类: 语言学及应用语言学 >> 语言学及应用语言学 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2024-06-05
摘要: 目的 量化低资源语言平行语料的句对齐评分,获取高质量平行语料,提升机器翻译的性能。 方法 提出基于神经网络的无监督句嵌入双语平行语料句对齐评分方法 NeuroAlign:将平行句对嵌入至同一向量空间,计算平行语料中给定候选句对的对齐评分,然后根据评分排序过滤分值较低的平行句对,获得高质量的低资源语言双语平行语料。 结果 BUCC2018 平行文本挖掘任务中 F1 值可提升 0.5-0.8;CCMT2021 低资源语言神经机器翻译中 BLEU 值可提升 0.1-10.9;句对齐评分可接近人工评分。 局限 限于低资源双语平行语料的资源匮乏,未在藏汉、维汉、蒙汉以外的语言对上进行探索研究。 结论 可以有效应用至低资源语言平行语料的句对齐评分,从数据源端提升语料质量,进而改进机器翻译的效果。