分类: 心理学 >> 应用心理学 分类: 计算机科学 >> 计算机应用技术 提交时间: 2020-01-07
摘要: 古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节,但由于缺少规范的数据资料而没有像现代汉语分词取得突破性进展。当前互联网拥有大量古汉语文本和词典方面的数据资料,但是这些数据分散,没有得到有效地整合。本文提出采集互联网非结构化古汉语数据,经过数据清洗和预处理抽取出一个古汉语基础词典,然后再利用互信息、信息熵、位置成词概率相结合的新词发现方法从大规模古籍文本中抽取古汉语候补词典,最终将基础词典与候补词典融合,利用正向最大匹配实现对古文的分词。与开源的分词器甲言在基于词典的分词方面比较后F值提高了14%,取得了良好的效果,结果证明本文构建的分词器可以应用在古汉语文本分词上。
分类: 心理学 >> 应用心理学 分类: 计算机科学 >> 计算机应用技术 提交时间: 2018-05-09
摘要: 本研究在社会媒体大数据的基础上,探究雾霾影响情绪的过程中地区因素发挥的作用。本文通过对微博数据进行词频统计的方法,在去除了微博热点事件对情绪的影响后,对2015年至2016年北京(朝阳区)和成都市的用户的原创微博内容,进行词频统计和调节变量(地区)的分析。引入调节变量(地区)后发现,结果发现地区与雾霾(PM2.5)存在交互作用,北京地区雾霾(PM2.5)与消极情绪呈现正相关,成都地区雾霾(PM2.5)与消极情绪呈现负相关。研究结果发现雾霾(PM2.5)影响情绪存在地区差异,这可能与两个城市的生活方式和历史文化有关。