Current Location:home > Browse

1. chinaXiv:202001.00075 [pdf]

基于大规模古文语料库的词典构建及分词技术研究

邢付贵; 朱廷劭
Subjects: Psychology >> Applied Psychology

古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节,但由于缺少规范的数据资料而没有像现代汉语分词取得突破性进展。当前互联网拥有大量古汉语文本和词典方面的数据资料,但是这些数据分散,没有得到有效地整合。本文提出采集互联网非结构化古汉语数据,经过数据清洗和预处理抽取出一个古汉语基础词典,然后再利用互信息、信息熵、位置成词概率相结合的新词发现方法从大规模古籍文本中抽取古汉语候补词典,最终将基础词典与候补词典融合,利用正向最大匹配实现对古文的分词。与开源的分词器甲言在基于词典的分词方面比较后F值提高了14%,取得了良好的效果,结果证明本文构建的分词器可以应用在古汉语文本分词上。

submitted time 2020-01-07 Hits15617Downloads1104 Comment 0

2. chinaXiv:201912.00027 [pdf]

古文LIWC词典的构建及初步分析

范妙榕; 邢付贵; 刘兴云; 朱廷劭
Subjects: Psychology >> Applied Psychology

[背景]LIWC(基于语词计量的文本分析)以关键词的词频统计为基础,可对个体和群体的表达语句的心理学意义等方面进行量化分析。由于文言文的表达方式与现代汉语存在明显的差异,为了分析文言文文本的心理学意义,我们在简体中文LIWC词典(Simplified Chinese LIWC 2015年版本, 简称SC-LIWC)的基础上,构建了古文LIWC(Classical Chinese LIWC,以下简称CC-LIWC)词典。[目的]本研究的目的是探究如何构建CC-LIWC词典并介绍如何使用该词典对古文文本进行分析。[方法]获取在线汉语词典的全部词汇及其对应解释,保留文言文词及其现代文译文,并从译文中寻找SC-LIWC词,将SC-LIWC词与文言文词进行匹配。对匹配结果进行人工标注,确保结果的一致性与准确性。[结果]最终生成的CC-LIWC包含了81个词类与49136个文言文词条。[局限]古文中一词多义、一词多性的情况较为普遍,对词典中词汇的分类存在一定影响。[结论]使用CC-LIWC对《论语(节选)》、《孤愤》进行词频分析,分析结果体现了儒家的中庸与法家的注重逻辑辩证的区别,说明CC-LIWC词典能够有效区分文本的表达倾向。

submitted time 2019-12-20 Hits15207Downloads823 Comment 0

  [1 Pages/ 2 Totals]