Current Location:home > Detailed Browse

Article Detail

基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法

Abstracts

【目的】中文机构名结构复杂、罕见词多, 识别难度大, 对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network, RNN)方法, 面向中文汉字和词的特点, 重新定义了机构名标注的输入和输出, 提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准, 本文提出的字级别模型在中文机构名识别的准确率、召回率和F 值均有明显提高, 其中F 值提高了1.54%。在包含罕见词时提高更为明显, F 值提高了11.05%。【局限】在解码时直接使用了贪心策略, 易于陷入局部最优, 如果使用条件随机场算法进行建模可能获取全局最优结果。【结论】本文方法构架简单, 能利用到汉字级别的特征来进行建模, 比只使用词特征取得了更好的结果。
Download Comment From cooperative journals:《数据分析与知识发现》 Hits:2288 Downloads:1800
Recommended references: 朱丹浩,杨蕾,王东波.(2017).基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法.数据分析与知识发现.[ChinaXiv:201711.02006] (Click&Copy)
Version History
[V1] 2017-11-08 15:04:11 chinaXiv:201711.02006V1 Download
Related Paper

Download

Current Browse

Change Subject Browse

Cross Subject Browse

  • - NO