注册 登录
EN | CN
  • 首页
  • 论文提交
  • 论文浏览
  • 论文检索
  • 个人中心
  • 帮助
按提交时间
  • 3
按主题分类
  • 3
按作者
  • 3
  • 1
  • 1
  • 1
  • 1
按机构
  • 2
  • 1
当前资源共 3条
隐藏摘要 点击量 时间 下载量
  • 1. ChinaXiv:201804.02048
    下载全文

    基于项编码的分布式频繁项集挖掘算法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》

    郑静益 邓晓衡

    摘要: Apriori算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark计算框架的Apriori并行化处理方法——IEBDA算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项集挖掘,同时利用Spark的广播变量实现并行化处理。与其他分布式Apriori算法在不同规模的数据集上进行性能比较,发现IEBDA算法从第一轮迭代后加速效果明显。结果表明,该算法可以提高大数据环境下的多轮迭代的频繁项集挖掘效率。

    通过
     点击量 1757  下载量 918  评论 0
  • 2. ChinaXiv:201804.01429
    下载全文

    基于AHP和混合Apriori-Genetic算法的交通事故成因分析模型

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》

    邓晓衡 曾德天

    摘要: 针对交通事故数据多维多层的特点,对交通事故的主要成因与潜在规律进行了研究。从驾驶员、车辆、时间—地点、环境四个维度出发,提出了基于层次分析法(AHP)和混合Apriori-Genetic的模型挖掘事故成因。首先,引入AHP对事故诱发因素进行重要度排序,在客观分析的基础上将事故因素量化,筛选出引发交通事故的主要因素;其次,结合混合的Apriori和遗传算法对主要因素进行定向分析,找出关联规则,提高挖掘的准确性。相关对比实验的结果表明该模型可以减少无用规则的产生并提高挖掘的准确性,具有一定的科学意义和应用价值。

    通过
     点击量 2190  下载量 1204  评论 0
  • 3. ChinaXiv:201804.02043
    下载全文

    一种基于词义和词频的向量空间模型改进方法

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-19 合作期刊: 《计算机应用研究》

    邓晓衡 杨子荣 关培源

    摘要: 向量空间模型(VSM)是一种使用特征向量对文本进行建模的方法,广泛应用于文本分类、模式识别等领域。但文本内容较多时,传统的VSM建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,提出一种利用词义和词频降低文本建模维度的方法,以提高效率和准确度。提出一种多义词判别优化的同义词聚类方法,结合上下文判别多义词的词义后,根据特征项词义相似度进行加权,合并词义相近的特征项。新方法使特征向量维度大大降低,多义词判别提高了文章特征提取的准确性。与其他文本特征提取和文本分类方法进行比较,结果表明,该算法在效率和准确度上有明显提高。

    通过
     点击量 2451  下载量 1511  评论 0
友情链接 : PubScholar 哲学社会科学预印本
  • 运营单位: 中国科学院文献情报中心
  • 制作维护:中国科学院文献情报中心知识系统部
  • 邮箱: eprint@mail.las.ac.cn
  • 地址:北京中关村北四环西路33号
招募预印本评审专家 许可声明 法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心