您当前的位置: > 详细浏览

基于条件随机场的汉语词汇特征研究

请选择邀稿期刊:
摘要: 汉语语言在书面表达时不具有天然分词的特性,词汇与词汇之间没有分词标记,因此在汉语文本的识别中需结合其行文的习惯及规则,即所谓的词汇特征。已有研究通常在实验中显式地标注词汇特征来提高识别效果,增加了人工处理流程,极大地加重了算法移植的工作量。研究并归纳了常用汉语语言的词汇特征,并利用条件随机场(conditional random fields,CRF)的特征提取能力,自行实现了复杂特征函数,在语料只具有简单标注的前提下,隐式地提取词汇特征,提高了识别效果。实验证明,在汉语分词中应用复杂词汇特征能有效提高识别性能,提供了在应用中提高识别算法可移植性的新思路。

版本历史

[V1] 2019-05-10 10:28:40 ChinaXiv:201905.00046V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量16485
  •  下载量1131
评论
分享