分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】针对当前的大数据环境, 提出基于Hadoop 的微博舆情监控系统模型, 实现对海量微博信息的采集、挖掘、监控分析。【方法】分析舆情监控技术, 构建舆情监控系统模型, 改进相关算法, 利用Hadoop 搭建大数据平台, 进行仿真实验, 验证模型可用性。【结果】实验结果表明, 模型能够很好地对海量微博数据进行监控分析, 达到舆情监控的目的。【局限】Hadoop 集群规模较小; 没有对比多种聚类算法, 未得到改进算法与其他算法的优劣。【结论】该模型可以对海量微博数据进行舆情监控分析, 为决策者应对舆情危机提供科学化的信息支持。
分类: 数字出版 >> 新媒体 提交时间: 2023-10-08 合作期刊: 《中国传媒科技》
摘要: 广播电视监管工作中的相关数据已经累积到相当多的程度,传统的存储和数据处理技术体系的建设维护越来越不能适应数据量增长速度和业务上的需求,在保证原有系统平稳运行的前提下,非常需要利用新的技术体系对数据进行迁移、扩容和备份,以Hadoop为代表的开源大数据处理和存储软件框架给我们提供了一套可行的方案。本文依据数据资产管理系统的实际建设经验,对其中的关键技术和建设过程进行分析和介绍。
分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-10-08 合作期刊: 《知识管理论坛》
摘要: [ 目的 / 意义 ] 针对用户在图书馆海量数字资源中常常面临获取信息困难的问题,构建一套个性 化知识服务系统,认为该系统是图书馆帮助用户摆脱信息超载困境和提升知识服务质量的必然选择。[ 方 法 / 过程 ] 通过建立中图法和学科分类法两大知识组织体系的映射模型,基于 Hadoop 分布式处理平台, 提出一种改进 TF-IDF+ 贝叶斯算法构建图书馆海量学术资源自动分类模型,辅助完善图书馆个性化知识服 务系统的构建。[结果 / 结论]以自中国知网抓取的 600 万余篇文献作为原始训练语料(语料涵盖 75 个学科) 测试该分类模型的有效性,实验结果证明该模型的分类效率和效果都达到了预期。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-12-13 合作期刊: 《计算机应用研究》
摘要: 为了解决当前Hadoop集群在异构资源环境下固有的调度分配方法的不足,提出了一种基于节点能力的自适应调度算法NCAS(node capacity adaptive scheduling)。首先,NCAS算法根据节点性能、任务特征计算得到调度因子;然后,由调度因子确定各节点应分得的数据量与任务槽数;最后,将数据和任务多分给快节点同时少分给慢节点。实验结果表明,与传统的调度算法相比,NCAS算法大幅度减少了备份任务的启动数量,明显减少了作业完成时间,提升了任务执行效率。
分类: 数字出版 >> 新媒体 提交时间: 2023-10-08 合作期刊: 《中国传媒科技》
摘要: 互联网、大数据和新媒体技术的发展带来媒体传播渠道和内容形态革命性变化,分析新闻在不同渠道媒体采用和传播情况是构建大数据驱动采编和传播决策的重要组成部分,对于提升通讯社国内和国际传播能力具有十分重要的意义。然而,由于互联网和新媒体数据格式不规范、转载和引用不注明来源等问题,新媒体的新闻转载引用分析难度大。本文从多源头收集网站、电子报纸、微信公众号、移动客户端等新闻数据,覆盖全球5000余家中英文媒体、40余万个新媒体账户。利用信息智能比对技术,跟踪新闻在全媒体的落地采用,构建新闻转载和引用分析系统,为进一步分析媒体传播路径,掌握国内外媒体传播规律,提升国内外舆论传播力奠定了基础。文中介绍了新闻转载引用分析的工作原理和建设意义,对关键技术实现进行了深入研究,在此基础上提出了新闻转载引用分析未来的发展建议。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 针对传统侵蚀地形因子提取方法在处理海量数据时出现的瓶颈,提出一种基于MapReduce模型的侵蚀地形因子计算方法。该方法将并行计算模型MapReduce与改进的通用土壤流失方程(revised universal soil loss equation,RUSLE)相结合。利用最大坡降原理和B+树建立流向关系查找树来表现地形数据的相关性;利用MapReduce模型进行流路查找与栅格汇聚来替代传统正反向遍历算法,解决侵蚀地形因子计算过程中汇水和累计坡长的计算效率问题。实验结果表明,对于基于海量数字高程模型数据的地形因子提取,该方法能够在计算精度允许的范围内有效提高效率。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-18 合作期刊: 《计算机应用研究》
摘要: 为了提高铁路零散白货客户流失预测的准确性和高效性,根据铁路零散白货客户的流失特征,提出了基于CDL模型的客户流失识别方法,在此基础上,针对数据量大的问题,提出了基于Hadoop并行框架的C4.5决策树客户流失预测模型。通过仿真实验,证明该模型具有较好的准确性和预测能力,并且随着样本数量的增加,Hadoop并行框架的效率得到了明显的提升,且不影响客户流失预测模型的准确性和预测能力。