Current Location:home > Detailed Browse

Article Detail

基于大规模古文语料库的词典构建及分词技术研究

Submit Time: 2020-01-07
Author: 邢付贵 1,2 ; 朱廷劭 1,2 ;
Institute: 1.中国科学院大学 北京 10049; 2.中国科学院心理研究所,北京 100101;

Abstracts

古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节,但由于缺少规范的数据资料而没有像现代汉语分词取得突破性进展。当前互联网拥有大量古汉语文本和词典方面的数据资料,但是这些数据分散,没有得到有效地整合。本文提出采集互联网非结构化古汉语数据,经过数据清洗和预处理抽取出一个古汉语基础词典,然后再利用互信息、信息熵、位置成词概率相结合的新词发现方法从大规模古籍文本中抽取古汉语候补词典,最终将基础词典与候补词典融合,利用正向最大匹配实现对古文的分词。与开源的分词器甲言在基于词典的分词方面比较后F值提高了14%,取得了良好的效果,结果证明本文构建的分词器可以应用在古汉语文本分词上。
Download Comment Hits:1068 Downloads:106
From: 朱廷劭
DOI:10.12074/202001.00075
Recommended references: 邢付贵,朱廷劭.(2020).基于大规模古文语料库的词典构建及分词技术研究.[ChinaXiv:202001.00075] (Click&Copy)
Version History
[V1] 2020-01-07 17:39:54 chinaXiv:202001.00075V1 Download
Related Paper

Download

Current Browse

Change Subject Browse

Cross Subject Browse