分类: 法学 >> 理论法学 提交时间: 2024-01-23
摘要: 本书的第九章是由Kumar Jayasuriya撰写的一篇篇幅较短的论文,题名为《律师事务所的数据挖掘:利用内部专业知识推动决策》。主要介绍了律师事务所利用内部数据驱动决策,作者认为这部分数据对律师事务所而言是最重要且未得到充分利用的数据,能够访问这些数据源的律所将有机会创造新的法律服务,通过利用未使用的数据资源,律师事务所可以成为数据驱动型组织,并获得市场优势。全文通过大数据、赋予法律实践以价值、数据驱动策略、数据团队、战略目标数据、发现内部专长和利用大数据进行创新七个章节进行论述。
分类: 数字出版 >> 新媒体 提交时间: 2023-10-08 合作期刊: 《中国传媒科技》
摘要: 随着大数据时代的到来,越来越多的企业采用商业智能的相关技术,从生产、销售等环节的数据中"淘金",为企业决策层提供辅助决策。本文将商业智能关键技术应用于新闻采编业务,针对新闻生产业务的全流程,通过对全流程状态分析、新闻生产力、传播影响力等主题的数据分析挖掘,展示新闻采编发的流转过程,展示采编部门和人员的生产效率,展示稿件的传播影响力。文中介绍了商业智能的工作原理,对新闻采编业务流程数据分析挖掘方法进行了深入研究。
分类: 天文学 >> 天文学 提交时间: 2018-05-29 合作期刊: 《天文研究与技术》
摘要: 在利用LAMOST巡天数据进行特殊天体搜寻或样本构建时,以及在处理LAMOST不断累积的低信噪比光谱时,通常需要耗费科学家大量的时间完成人工识谱。针对这样的问题,我们设计并实现了一套专家识谱平台。该平台是集光谱可视化、光谱分析、多波段图像融合、多种数据挖掘算法等功能于一体的科学与科普教研平台。利用该平台,天文学家进行天体搜寻、样本构建等科学研究将会变得相对容易;通过该平台,高校教师可以开展各种有天文特色的教研活动;借助群体力量,该平台将能逐步消化LAMOST不断积累的标注为UNKNOWN的未知光谱数据。
分类: 天文学 >> 天文学 提交时间: 2019-05-20 合作期刊: 《天文研究与技术》
摘要: 天体光谱数据的智能处理正由传统机器学习方法逐步转向深度学习,主要采用基于计算机视觉的技术手段。本文基于在计算机视觉领域广泛应用的DenseNet网络结构,针对光谱数据进行修改,建立了适用于光谱数据的一维卷积神经网络模型解决天体光谱数据分类任务。在验证数据集上,恒星、星系、类星体的F1分数达到了为0.9987、0.9127、0.9147,高于传统神经网络。光谱分类关注区域的可视化结果表明,本文模型可以学习到各类天体对应的特征谱线,具有较强的可解释性。本文的方法被用于阿里云天池天文数据挖掘大赛——天体光谱智能分类,并在843支参赛队伍的3次数据评比中获得了2次第一、1次第三的成绩,证明了该模型在保证分类精度的同时具有极强的鲁棒性、泛化性,适用于光谱的自动分类。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】充分利用多源网络评估数据和 URL 异常特征数据, 研究提高钓鱼网站识别准确性的可行性方案。 【方法】采用 8 种机器学习技术, 对比研究网络评估数据与传统的 URL 异常特征数据在钓鱼网站识别中的性能, 并融合两类数据研究进一步提高钓鱼网站识别准确性的可行性方案。【结果】在钓鱼网站识别中, 相比于传统的 URL 异常特征, 利用网络评估数据可以取得更好的识别效果。融合两类数据对于提高识别准确性有一定帮助。 【局限】未考虑钓鱼网站与正常网站的数量存在严重的不均衡问题。【结论】充分利用多源网络评估数据和 URL 异常特征数据识别钓鱼网站的方法是比较合理和有效的, 对后续相关研究具有一定的借鉴意义。
分类: 计算机科学 >> 计算机应用技术 提交时间: 2017-03-10
摘要: 随着互联网发展的日益深入,网络已成为当今社会信息传播的主要媒介之一。网络舆情形成迅速,对社会影响巨大,加强网络舆情的监测和分析,值得引起社会各界的高度重视。天玑舆情监测系统是专门针对网络舆情监测的工作要求和特点而打造的,不仅采用了专业化的搜索引擎技术,还融入了更加智能的数据挖掘技术,建立一个以日为周期的网络舆情监测平台,同时配上以周或者以月为基础的舆情分析报告,从而提供了一个便捷、科学、可操作的舆情工作平台。
分类: 计算机科学 >> 计算机应用技术 提交时间: 2024-08-06
摘要: 针对学生学业预警二分类问题,本文提出一种基于 Stacking 的集成学习模型。模型结合了学生的家庭背景、在校表现和环境因素。本文通过使用BernoulliNB、HistGradientBoost 构建基学习器,Logistics 回归作为元学习器集成分类,并与其他基准模型进行比较。实验结果表明,模型的准确率达到 93.9%,分别高于 K临近算法,决策树模型,随机森林和lightgbm 模型7.99%,6.61%,2.20%,2.47%;且 F1分数达到 0.95,表明模型在学生学业预测上有较高应用价值。
分类: 数字出版 >> 新媒体 提交时间: 2023-10-08 合作期刊: 《中国传媒科技》
摘要: 信息时代数据资源的快速膨胀与传播,对新闻编辑来说,每天要接触和阅读大量的信息,这些庞杂的信息如何进行有效的提炼,往往考验着新闻编辑的数据挖掘创新能力。新闻报道在大数据时代下,新闻生产与呈现方式的变化,势必对新闻从业者提出更高挑战。新闻编辑作为新闻报道的主体,更需要从知识结构、数据量爆炸式增长中提升数据的搜集、加工、呈现水平,才能更好地适应媒介新环境的变化,为受众提供有吸引力、说服力和影响力的新闻信息。
分类: 其他 >> 综合 提交时间: 2023-03-19 合作期刊: 《中国科学院院刊》
摘要: 大数据正在影响着人类生活,改变着人类认识和研究世界的思维方式。作为典型数据密集型学科的地质学,正面临着前所未有的挑战与机遇。为了应对这一挑战,地质学家不仅需要改进传统的研究方法,更重要的是要改变传统思维模式,拥抱大数据时代的到来。地质学与大数据的结合不仅极大拓展了地质学的认知空间,提升了获取地质学新知识的能力,同时为地质学支撑的能源矿产调查、环境资源合理利用以及防灾减灾等社会生产和公共服务提供了创新活力。在分析国内地质学大数据研究现状的基础上,文章阐述了我国地质学大数据研究的前沿科学问题,提出了地质学大数据发展战略目标,探讨了地质学大数据发展面临的主要问题和解决途径。大数据将改变地质学家的思维方式,数据驱动的科学发现模式将为地质学的发展带来全新的面貌,文章呼吁地质学界对大数据给予更多的关注和支持。
分类: 其他 >> 综合 提交时间: 2023-03-19 合作期刊: 《中国科学院院刊》
摘要: 生物医学数据从PB量级的组学时代进入到EB量级的多维度大数据时代,引发了生物医学研究向数据密集型的第四科学范式的深刻变革。如何将临床数据与研究数据进行高维度多层次的汇交共享,实现从“组学”到临床与健康人群数据的生物医学大数据的综合管理利用,从而使大数据迅速转化为新知识,成为生物医学大数据所面临的挑战。发展以递交为基础、以整合为导向的数据存储技术,以主题为基础、以交互为导向的数据共享技术,以及以传统信息技术为基础、以前沿信息技术为导向的数据分析挖掘技术,并同时开展标准质控相关研究,是生物医学大数据存储、共享和转化的新思路,也是构建新一代生物医学大数据研究中心的技术关键和未来趋势。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2019-01-03 合作期刊: 《计算机应用研究》
摘要: 密度峰值聚类算法是一种新颖的密度聚类算法,但是,原算法仅仅考虑了数据的全局结构,在对分布不均匀的数据集进行聚类时效果不理想,并且原算法仅仅依据决策图上各点的分布情况来选取聚类中心,缺乏可靠的选取标准。针对上述问题,提出了一种基于加权K近邻的改进密度峰值聚类算法,将最近邻算法的思想引入密度峰值聚类算法,重新定义并计算了各数据点的局部密度,并通过权值斜率变化趋势来判别聚类中心临界点。通过在人工数据集上与UCI真实数据集上的实验,将该改进算法与原密度峰值聚类算法、K-MEANS算法及DBSCAN算法进行了对比,证明了改进算法能够在密度不均匀数据集上有效完成聚类,能够发现任意形状簇,且在三个聚类性能指标上普遍高于另外三种算法。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 关联规则挖掘是数据挖掘重要研究课题,大数据处理对关联规则挖掘算法效率提出了更高要求,而关联规则挖掘的最耗时的步骤是频繁模式挖掘。针对当前频繁模式挖掘算法效率不高的问题,结合Apriori算法和FP-growth算法,提出一种基于事务映射区间求交的频繁模式挖掘算法IITM(interval interaction and transaction mapping),只需扫描数据集两次来生成FP树,然后扫描FP树将每个项的ID映射到区间中,通过区间求交来进行模式增长。该算法解决了Apriori算法需要多次扫描数据集,FP-growth算法需要迭代地生成条件FP树来进行模式增长而带来的效率下降的问题。在真实数据集上的实验显示,在不同的支持度下IITM算法都要要优于Apriori、FP-growth以及PIETM算法。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 通过馆藏图书分类和流通数据,发现读者特征与馆藏流通之间的关联,建立关系模型,通过模型拟合与预测,探索读者与图书流通之间的隐含规律,为图书馆智慧管理提供技术与手段的支持。[方法/过程] 采用聚类和相关分析技术,提取读者宏观可观测特征,建立读者特征与图书分类之间直接和间接的映射关系,进而建立读者特征与分类图书流通量的回归模型,并验证模型有效性和优化模型拟合优度。根据有效模型,探索图书馆流通趋势,并挖掘读者宏观特征层面下所隐含的知识建构本质与规律,以及对图书流通产生的影响程度。[结果/结论] 具有代表读者社会角色要求的专业学习方向、代表读者间群体互动效应的入学批次、读者群体数量3个有关读者的分类特征,能够有效拟合和预测图书流通量。预测结果表明,模型准确率较高,能够作为有效工具,为图书馆开展知识服务提供可靠的技术支持。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2022-05-10 合作期刊: 《计算机应用研究》
摘要: 针对传统基于相似度的离群点检测算法在高维不均衡数据集上效果不够理想的问题,文中提出一种新颖的基于随机投影与集成学习的离群点检测(ensemble learning and random projection-based outlier detection,EROD)框架。算法首先集成多个随机投影方法对高维数据进行降维,提升数据多样性;然后集成多个不同的传统离群点检测器构建异质集成模型,增加算法鲁棒性;最后使用异质模型对降维后的数据进行训练,训练后的模型经过两次优化组合以降低泛化误差,输出最终的对象离群值,离群值高的对象被算法判定为离群点。分别在4个不同领域的高维不均衡真实数据集上进行对比实验,结果表明该算法与传统离群点检测算法和基于集成学习的离群点检测算法相比,在AUC和Precision@n值上平均提高了3.6%和14.45%,证明EROD算法具有处理高维不均衡数据异常的优势。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-17 合作期刊: 《计算机应用研究》
摘要: 多尺度数据挖掘多应用于空间遥感图像数据,以图像的分辨率或者区域分割为依据进行尺度划分,然后在每个尺度层进行分析。近期,有不少学者将多尺度数据挖掘应用于一般数据集上,以等级理论、概念分层以及包含度理论等为尺度划分依据,研究不同尺度层的分布规律,进而发现有意义的事实,如多尺度关联规则以及多尺度聚类。但是在一般数据集下,很少将多尺度数据挖掘应用于分类算法领域。定义了广义分形插值理论的概念,打破了局限于迭代函数系统IFS(iterative function systems)的缺憾,拓展了分形插值的应用;提出了基于广义分形插值理论的多尺度分类尺度下推算法MSCSDA(multi-scale classification scaling-down algorithm)。仿真实验建立在四个UCI基准数据集和一个H省部分人口真实数据集上,并将MSCSDA与KNN、Decision Tree以及LibSVM算法进行对比分析,实验结果表明,MSCSDA算法在不同的数据集上均优于其他算法。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 在对美国、英国、欧盟、日本、德国等地区或国家对TDM行为的立法或司法应对进行比较分析基础上,提出我国TDM合理使用规则的设计思路。[方法/过程] 首先分析人工智能时代文本与数据挖掘的技术特征及其挑战,介绍出版商和图书馆有关TDM合理使用的立场分歧,之后在对代表性国家有关TDM合理使用法律应对机制进行比较分析基础上,从TDM例外的主体、客体、目的、行为及其他条件等方面,论证我国TDM合理使用规则的具体内容。[结果/结论] 任何机构或个人基于科学研究或其他合理目的对任何作品以复制、提取、改编或有限传播方式进行文本和数据挖掘构成合理使用,但利用非合法来源作品须支付合理的使用费。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】基于读者利用图书馆的数据, 面向特定院系, 设计与开发展示毕业生利用图书馆情况的个性化记忆系统。【应用背景】高校图书馆毕业季活动不断推陈出新, 读者数据挖掘成为创新服务模式的有效手段。【方法】利用来自图书馆不同系统的读者数据搭建数据库, 采用JSP 技术开发平台, 结合HTML5、CSS、jQuery 等技术进行前台展示。【结果】毕业生可通过系统浏览与打印图书馆的数据, 包括到馆记录、借阅历史清单、图书馆座位使用信息、研究间预约情况等。【结论】该系统释放图书馆基础数据的价值, 为毕业生提供人文关怀。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-10-11 合作期刊: 《数据分析与知识发现》
摘要: 【目的】从异构的电子病历数据中发现疾病危险因素, 为数据挖掘与知识发现提供借鉴。【方法】选取集各种结构为一身的临床电子病历数据, 利用决策树、逻辑回归和神经网络三种数据挖掘算法分别建立疾病危险因素预测模型, 对三种预测模型进行比较分析和统计学评价。【结果】决策树预测模型在查准率、召回率上高于逻辑回归和神经网络, 在总体性能上决策树最优, 但三者差别不大。【局限】未对电子病历属性进行优化选择。【结论】决策树在危险因素的发现与疾病的预测方面优于逻辑回归和神经网络。研究中建立基于数据挖掘算法的异构数据源知识发现框架, 为今后领域知识发现和知识库构建以及数据挖掘算法的选择提供一定借鉴和参考。
分类: 统计学 >> 社会统计学 提交时间: 2024-06-28 合作期刊: 《中国科学院院刊》
摘要: 党的二十大报告指出,“积极稳妥推进碳达峰碳中和”“加快规划建设新型能源体系”。氢能作为绿色 低碳的二次能源,在促进可再生能源规模化高效利用、推动交通领域能源替代、加快工业领域深度脱碳等方 面具有应用前景,是建设新型能源体系不可或缺的组成部分,也是实现碳达峰、碳中和的重要绿色解决方 案。为全面系统研究我国氢能政策体系,文章调研621 份我国中央和地方政府发布的氢能政策文件,基于政 策信息学,利用自然语言处理技术挖掘氢能政策要素信息和结构化数据指标,结合文本分析、定量分析和数 据可视化分析研究氢能政策发展演化轨迹、产业区域格局及产业链布局等特征,该研究框架及分析方法有利 于提高研究氢能政策的系统性和时效性。基于上述研究,文章最后针对我国氢能产业的薄弱环节提出加速发 展的政策建议。
分类: 计算机科学 >> 计算机网络 提交时间: 2017-03-10
摘要: 随着网络数据的爆炸性增长,信息处理技术面临着前所未有的巨大挑战。如何从体量巨大、增长迅速、结构复杂、良莠不齐的数据中发掘潜在价值成为了关键难题。面向网络大数据的信息检索与挖掘技术,旨在通过对大数据的深度分析与建模,有效弥合用户需求与网络数据之间的信息鸿沟。本文介绍了面向网络大数据的深度检索与挖掘的一系列关键技术,包括用户查询理解与处理、文档建模与理解及检索模型等。