您当前的位置:首页 > 论文浏览

1. chinaXiv:201902.00062 [pdf]

Multimedia Short Text Classification via Deep RNN-CNN Cascade

陶爱山
分类: 计算机科学 >> 自然语言理解与机器翻译

Abstract—With the rapid development of mobile technologies, social networking softwares such as Twitter, Weibo and WeChat are becoming ubiquitous in our every day life. These social networks generate a deluge of data that consists of not only plain texts but also images, videos, and audios. As a consequence, the traditional approaches that classify the short text by counting only the key words become inadequate. In this paper, we propose a multimedia short text classification approach by deep RNN(Recurrent neural network ) and CNN(Convolutional neural network) cascade. We first employ an LSTM(Long short-term memory) net- work to convert the information in the images into text information. Then a convolutional neural network is used to classify the multimedia texts by taking into account both the texts generated from the image as well as those contained in the initial message. It is seen through experiments using MSCOCO dataset that the proposed method exhibits significant performance improvement over the traditional methods.

提交时间: 2019-02-22 点击量55下载量25 评论 0

2. chinaXiv:201809.00191 [pdf]

基于代价敏感集成极限学习机的文本分类方法

李明; 肖培伦; 张矩; 顾心盟
分类: 计算机科学 >> 自然语言理解与机器翻译

加权极限学习机对不同类别的样本赋予不同的权值,在一定程度上提高了分类准确 率,但加权极限学习机只考虑了不同类别样本之间差异,忽视了样本噪声和同类样本之间的 差异。本文提出了一种基于文本类别信息熵的极限学习机集成方法,该方法以Adaboost.M1 为算法框架,通过文本的类内分布熵和类间分布熵生成文本类别信息熵,由文本类别信息熵 构造代价敏感矩阵,把代价敏感极限学习机集成到Adaboost.M1 框架中。实验结果表明,该 方法与其他类型的极限学习机相比较有更好的准确性和泛化性。

提交时间: 2018-09-27 点击量618下载量281 评论 0

3. chinaXiv:201710.00001 [pdf]

Network of Recurrent Neural Networks

Wang, Chao-Ming
分类: 计算机科学 >> 自然语言理解与机器翻译

We describe a class of systems theory based neural networks called "Network Of Recurrent neural networks" (NOR), which introduces a new structure level to RNN related models. In NOR, RNNs are viewed as the high-level neurons and are used to build the high-level layers. More specifically, we propose several methodologies to design different NOR topologies according to the theory of system evolution. Then we carry experiments on three different tasks to evaluate our implementations. Experimental results show our models outperform simple RNN remarkably under the same number of parameters, and sometimes achieve even better results than GRU and LSTM.

提交时间: 2017-10-02 点击量1161下载量798 评论 0

4. chinaXiv:201703.00230 [pdf]

藏文分词及其在藏汉机器翻译中的应用

孙萌; 华却才让; 姜文斌; 吕雅娟; 刘群
分类: 计算机科学 >> 自然语言理解与机器翻译

本文提出一种基于判别式模型的藏文分词方法,并研究了藏文分词在藏汉机器翻译中的应用。根据藏文构词特性,通过最小构词粒度切分、感知机解码和分词结果重排序三个模块,显著提升了藏文分词质量。在此基础上,我们还提出了基于词图的藏汉机器翻译方法,缓解了分词错误在翻译中的传播,可以使翻译质量明显提高。

提交时间: 2017-03-10 点击量1334下载量1072 评论 0

5. chinaXiv:201703.00228 [pdf]

面向形态丰富语言的翻译规则选择方法

王志洋; 吕雅娟; 孙萌; 姜文斌; 刘群
分类: 计算机科学 >> 自然语言理解与机器翻译

目前的机器翻译模型都是针对形态变化简单的语言(如英语)设计的,不太适合于形态丰富语言(如维吾尔语)。在本文中,我们通过区别对待形态丰富语言中的词干与词缀,提出了一种新型的面向形态丰富语言的翻译规则选择方法。我们用词干作为基本翻译单元以缓解数据稀疏问题,此外,每条词干粒度的翻译规则上还附着一个词缀分布。在翻译时,通过计算待翻译片段的词缀分布与翻译规则词缀分布的相似度,来选择更合适的翻译规则。从三种形态丰富语言(维吾尔语、哈萨克语、柯尔克孜语)到汉语的翻译实验表明,该方法显著改善了翻译质量。

提交时间: 2017-03-10 点击量1065下载量839 评论 0

6. chinaXiv:201703.00187 [pdf]

中科院计算所的少数民族语言机器翻译研究进展

吕雅娟; 刘群; 姜文斌
分类: 计算机科学 >> 自然语言理解与机器翻译

本文分析了少数民族语言机器翻译研究的背景、研究现状和发展动态,介绍了中科院计算所在少数民族语言处理和机器翻译方面的研究进展,包括维吾尔语、蒙古语、藏语的语言处理基础技术,形态丰富语言的分析和翻译建模,资源缺乏语言的知识获取和翻译技术,以及组织全国机器翻译研讨会少数民族语言机器翻译评测的情况等。

提交时间: 2017-03-09 点击量1172下载量960 评论 0

7. chinaXiv:201611.00727 [pdf]

基于逆序扫描和共现分析的缩略语快速提取算法

王敬东; 张智雄
分类: 计算机科学 >> 自然语言理解与机器翻译

梳理科技资源中缩略语的构成形式;提出一种基于逆序快速扫描和共现分析相结合的术语缩略语快速提取算法。首先从科技资源中提取缩略语、候选全称及上下文信息;接着采用启发式模糊匹配算法,对缩略语及候选术语全称从右向左进行逆序扫描,在不要求缩略语中字母全部正确匹配的情况下,识别出规则的术语缩略语及其全称;最后对不规则候选缩略语及全称进行共现分析。同以往算法相比,该算法无论在时间复杂度上,还是在准确率和召回率上都取得了明显进步。

提交时间: 2016-11-14 点击量801下载量497 评论 0

8. chinaXiv:201606.00253 [pdf]

Perceptually Weighted Analysis-by-Synthesis Vector Quantization for Low Bit Rate MFCC Codec

Gang,Min
分类: 计算机科学 >> 自然语言理解与机器翻译

This letter presents a perceptually weighted analysis -by-synthesis vector quantization (VQ) algorithm for low bit rate MFCC codec. Different from conventional VQ of MFCCs vector, this algorithm uses an analysis-by-synthesis technique and aims to minimize the perceptually weighted spectral reconstruction distortion rather than the distortion of MFCCs vector itself. Also, to reduce the computational complexity, we propose a practical suboptimal codebook searching technique and embed it into the split and multistage vector quantization framework. Objective and subjective experimental results for Mandarin speech show that the proposed algorithm yields intelligible and natural sounding speech for speech coding at 600--2400 bit/s. Compared to current VQ in MFCC codec, the output speech quality is substantially improved in terms of frequency-weighted segmental SNR, STOI, PESQ and MOS score.

提交时间: 2016-06-18 点击量744下载量429 评论 0

9. chinaXiv:201606.00097 [pdf]

面向商品评论文本的情感分析与挖掘

李涵昱; 周鹏飞
分类: 计算机科学 >> 自然语言理解与机器翻译

随着电子商务的快速发展,互联网上出现大量商品评论信息,商品评论文本的情感分析与挖掘对于研究商品口碑、进行商品推荐都具有重要的价值。文中设计商品属性提取与过滤算法、情感词判别算法,分析商品的评论信息并自动抽取用户关注的商品属性和用户对相应属性的评价观点,进一步将其应用于商品评价文本的情感倾向性分析。在真实数据集上进行测试取得了准确率81.08%,召回率88.23%。

提交时间: 2016-06-12 点击量2046下载量1412 评论 0

  [1 页/ 9 条记录]