ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2018
1

按主题分类

计算机科学的集成理论
1

按作者

崔荣一
1
田明杰
1

按机构

延边大学计算机科学与技术学科智能信息处理研究室
1

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 田明杰

1. ChinaXiv:201806.00109
下载全文

面向跨语言文本分类与标签推荐的带标签双语主题模型的研究

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-06-19 合作期刊: 《计算机应用研究》

田明杰崔荣一

摘要：针对日渐丰富的跨语言的文字信息资源与新闻报道及科技文献中的多标签数据，为了挖掘跨语言间的相关性及数据属性间的关联性，提出了带标签双语主题模型，应用于跨语言文本分类与标签的推荐。首先，假设科技文献中的关键词与摘要部分有着内容上的相关性，对关键词进行提取，并进行标签化，进而把标签对应于主题模型中的主题，实例化“潜在”的主题；其次，利用带标签双语主题模型对摘要部分进行了训练迭代；最后，对新加入的文档进行跨语言文本分类及标签的推荐。实验结果表明，跨语言文本分类任务中Micro-F1达到94.81%，推荐的标签也较好地体现出语义上的相关性。

点击量 1526 下载量 883 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募预印本评审专家许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心