分类: 数字出版 >> 新媒体 提交时间: 2023-10-08 合作期刊: 《中国传媒科技》
摘要: 【目的】论述Web信息抽取技术在新闻舆情分析中的应用,为舆情虚假信息甄别、舆论引导提供新方法,从而避免对大众的思维、想法等造成不良影响。【方法】研究提出了基于行块分布函数和基于统计与网页结构两种不同的新闻正文信息抽取方法,使得在对Web新闻数据采集和存储的基础上,正文信息抽取更加高效和准确。【结果】两种Web信息抽取技术可以广泛应用于海量新闻数据分析、舆情监测等应用场景。【结论】通过基于行块分布函数的抽取方法和基于统计信息与网页结构的抽取方法,能够分别对轻量网页和大流量网页抽取信息时表现更优。
分类: 数字出版 >> 新媒体 提交时间: 2023-10-08 合作期刊: 《中国传媒科技》
摘要: 本文对新闻App用户行为数据采集方式、数据分析方法进行了研究,提出了一种适用于新闻App用户行为高效分析的方法。该方法使用splunk进行后端数据分析,通过对列方式解决用户行为数据高并发问题,保证了App的高可用性。文中叙述的方法已经在实际使用的App中进行了部署,并经受了长时间的运行考验,可为类似新闻阅读类应用提供现实参考。
分类: 天文学 >> 天文学 提交时间: 2023-12-06 合作期刊: 《天文研究与技术》
摘要: 针对目前射电观测设备对数字接收机高采样率、宽带宽、多通道幅相一致,以及高速率直接采样和时域数据存储的需求,通过调研分析多个射电观测设备的数字处理系统的技术架构和功能,提出了基于ZYNQ SOC和ADS54J60等核心器件实现的4 通道数字接收机系统方案。单通道最高可实现1 GSPS 采样率,具有灵活可拓展的优势,可以通过添加板卡实现采样通道数的增加,能够满足未来大规模可拓展射电干涉阵列的需求。系统由高速数据采集卡、光通信接收卡、服务器3 部分设备组成,基于SerDes的高速串行接口技术目前实现16 位量化精度、300 MSPS 的直接采样功能,具备60 dB满量程信噪比、40Gbps的SFP+数据传输带宽、1.5 GB/s的PCIe通信带宽,可对4.5~150 MHz范围内中频模拟信号进行采集,目前该系统已经完成软硬件设计和测试。在测试中对频率为10 MHz、幅度为125 mV的正弦波信号进行采样, 得到4通道间幅度差小于1 mV,相位延时小于3.3 ns。系统集成可编程SFP+通信接口和多机同步机制,可适应多元阵列同步采集的需要,可同时对原始射电信号的数据进行存储,为射电研究提供更详细的时域数据。
分类: 计算机科学 >> 计算机网络 分类: 计算机科学 >> 计算机硬件技术 提交时间: 2017-03-09
摘要: 链路带宽的剧增给高速网络数据包处理带来了极大的挑战。传统的纯软件网络数据包处理在性能上已不能满足需要。当前网络处理器、多核芯片等针对高性能网络数据包处理提供了硬件加速技术,对多数网络应用提供了高性能实现方法。在对数据处理时延、吞吐量、丢包率等性能指标有更高要求的应用场合,还需要专用的加速硬件。本文针对基于深度报文检测(DPI)的高性能流量分析和控制应用需求,介绍基于现场可编程逻辑门阵列(FPGA)的通用高速网络数据包处理硬件加速架构。该架构对数据采集通路进行硬件加速,实现了高速链路数据报文的线速采集,通过专用硬件进行数据包转发和流量控制,针对后端多核服务器的并行处理进行优化,实现了控制和分析平面的高性能处理。本文介绍该架构在流量采集、高精度时钟同步、高速包分类和流量控制等方面的硬件加速方法。测试结果表明,这些加速方法充分卸载了服务器的处理负荷,能有效地提高应用系统的性能。
分类: 天文学 >> 天文学 提交时间: 2017-10-20 合作期刊: 《天文研究与技术》
摘要: 我国明安图射电频谱日像仪(Mingantu Ultrawide SpEctral Radio Heliograph, MUSER)已经完成所有的硬件设备安装与调试,即将进入常规观测。为有效地保证观测数据的可用性,项目组购置了Vantage Pro自动气象站,用以实时监控观测地的气象条件变化。首先介绍了MUSER项目的基本情况,论述了在项目中气象条件的应用场景及在数据处理时对数据有效性可能造成的影响;详细介绍了Vantage Pro气象站的数据采集格式、数据交换格式以及串行通信协议;介绍了在气象数据的存储方式;最后给出了构建气象数据服务、数据归档和高效查询的方法。可以应用在望远镜自动气象监控和数据处理方面,也可以为选址的自动气象监测提供春考
分类: 计算机科学 >> 计算机应用技术 提交时间: 2017-03-28
摘要: 激光共聚焦显微成像技术能够有效的排除非焦平面的信息,提高了光学显微成像的分辨率和对比度。针对激光共聚焦显微成像系统的点扫描成像过程,基于LabVIEW平台开发了数据采集系统,该系统不仅能够对数据进行采集,还能将数据准确的重建为图像并实时显示。数据采集系统采用生产者-消费者模型作为基础架构,通过两个同步信号分别实现了图像的帧同步和行同步,确保了重建图像的准确性。通过对生物样本进行试验,该系统能够将样本图像实时准确的显示出来,满足了整个显微成像系统的要求。
分类: 数字出版 >> 新媒体 提交时间: 2023-10-08 合作期刊: 《中国传媒科技》
摘要: 随着信息技术及移动互联网技术发展的日新月异,当今舆论生态、媒体格局、传播方式均发生了深刻变化。尤其是媒体融合发展趋势下的视频直播业态,使传统广电模式面临着巨大挑战,实现全面IP化已是大势所趋。在这一背景下,如何更好地把握业务资源现状,以应对不断膨胀的业务规模及4K/8K、VR等超高清报道需求,实现高效的业务管理及信息共享,是必须直面的课题。同时,日趋成熟的智能化服务可以实现对直播内容有效信息的进一步提取及深度价值挖掘,这也为辅助全流程追踪、拓展统计分析维度、便捷实现分发共享、深度赋能融媒体生产协作等提供更多助力。本文将结合上述思路,围绕如何设计、构建基于智能服务的互联网直播信息管理系统,以及如何实现直播资源内容深度挖掘、共享等问题,展开进一步论述。
分类: 农、林、牧、渔 >> 农、林、牧、渔业科学其他学科 提交时间: 2023-02-17 合作期刊: 《智慧农业(中英文)》
摘要: 小麦在生长过程中发生倒伏会严重影响其产量,因此实时且准确地对小麦倒伏状况监测有很重要 的意义。传统的方法采用手工方式生成数据集,不仅效率低、易出错,而且生成的数据集不准确。针对这 一问题,本研究提出了一种基于图像处理的自动数据集生成方法。首先利用无人机在15、46和91 m三个高 度采集图像数据; 采集完数据后,根据无倒伏、倒伏面积50%的标准对每一块地的小麦 倒伏情况进行人工评估; 采用三种机器学习(支持向量机、随机森林、K 近邻) 和三种深度学习 (ResNet101、GoogLeNet、VGG16) 算法对小麦倒伏检测情况进行分类。结果显示,ResNet101的分类结果优 于随机森林,并且在91 m高度采集的数据分类精度并不低于在15 m高度采集的数据。本研究证明了针对在 91 m高度采集的无人机图像,采用ResNet101对小麦倒伏率检测是一种有效的替代人工检测的方法,其检 测精度达到了75%。
分类: 统计学 >> 社会统计学 提交时间: 2023-12-04 合作期刊: 《智慧农业(中英文)》
摘要: [目的/意义]农业病虫害科学数据集是农业病虫害监测预警的基础,也是发展智慧农业重要的组成部 分,对农业病虫害防治具有重要意义。随着深度学习技术在农业病虫害智能监测预警中应用效果的凸显,构建高 质量的农业病虫害数据集逐步受到专家学者的重视。为了进一步构建高质量、分布均衡的农业病虫害图像数据集, 提高检测模型的准确性和鲁棒性,本文以构建农业病虫害图像数据集面临的挑战为切入点,对农业病虫害数据集 的构建进行了全面综述。[进展]分别从数据集层次、数据样本层次和使用层次总结构建农业病虫害图像数据集所 面临的类间类内样本不均衡、选择偏差、目标多尺度、目标密集、数据分布不均、图像质量参差不齐、数据集规 模不足以及数据集可用性等问题,从图像采集和标注方法两个方面,分析以上问题的主要成因,并归纳算法的改 进策略和建议,最后总结了数据集相关评价方法。[结论/展望]结合农业病虫害图像识别实际需求,对构建高质 量农业病虫害图像数据集提出了相关建议:(1) 结合实际使用场景构建农业病虫害数据集。多视角、多环境下采 集图像数据构建数据集,从算法提取特征的角度,科学、合理划分数据类别,构建样本数量分布和特征分布均衡 的数据集;(2) 平衡数据集与算法间的关系。研究数据集特征与算法性能之间的关系,需充分考虑数据集中的类 别和分布,以及与模型匹配的数据集规模,以提高算法准确性、鲁棒性和实用性。深入研究农业病虫害图像数据 规模与模型性能的关联关系、病虫害图像数据标注方法、模糊、密集、遮挡等目标的识别算法和高质量农业病虫 害数据集评价指标,进一步提高农业病虫害智能化水平;(3) 增强数据集的使用价值。构建多模态农业病虫害数 据集,创新数据采集组织形式,开发数据中台,挖掘多模态数据间的关联性,提高数据使用便捷性,为应用落地、 业务创新提供高效服务。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2023-04-01 合作期刊: 《图书情报工作》
摘要: [目的/意义] 在数据生命周期框架下,创新性地提出一种从论文中采集社会科学数据创建和使用相关信息的方法,并深入研究其基本情况,为社会科学数据的研究提供新思路。[方法/过程] 以学科交叉性较强的物流研究领域2015-2020年的CSSCI收录的论文为样本,通过迭代式方法构建基于数据生命周期的"泛化-精确关键词词库",采集社会科学数据的相关信息,并结合社会科学数据外部环境信息,对社会科学数据的创建和使用进行全面研究。[结果/结论] 在采集论文中社会科学数据的创建和使用相关信息上,二次匹配数据采集规则具有可行性和高效性,互联网已经成为社会科学研究主要的数据搜集方式,不同研究主题的数据使用偏好不同,对于数据分析工具的使用普及度仍然较低。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 公交车具有固定的行驶路线和发车周期、统一的车载设备标准、低隐私泄露风险等特性。根据公交车的特性,设计了一个基于公交网络的车载群智感知系统,系统中的数据中心通过公交网络中的公交车来采集城市数据,以满足数据用户的需求;随后研究系统中的任务分配问题和数据交易问题。基于贪婪算法设计优化任务分配策略以最小化系统的数据采集能耗成本,和根据博弈论设计最优数据交易策略以最大化系统的经济效益。最后通过仿真,验证了提出的策略的有效性和优越性。