ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2018
1

按主题分类

计算机科学的集成理论
1

按作者

按机构

武汉大学计算机学院
1

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 章登义

1. ChinaXiv:201807.00065
下载全文

一种基于双向LSTM的联合学习的中文分词方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-07-09 合作期刊: 《计算机应用研究》

章登义胡思徐爱萍

摘要：中文分词是中文自然语言处理任务的关键技术之一。针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习，提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集（PKU、MSRA、CTB6）和繁体中文数据集（CITYU、AS）。每一个数据集的输入语句的句首和句尾分别添加一对标志符。应用BLSTM（双向长短时记忆模型）和CRF（条件随机场模型）对数据集进行单独训练和多语料库共同训练的实验，结果表明大规模的多语料库共同学习训练能取得良好的分词效果。

点击量 2315 下载量 1315 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募预印本评审专家许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心