ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2023
8

按主题分类

按作者

按机构

当前资源共 8条

隐藏摘要

点击量

时间

下载量

您选择的条件: 安璐

1. ChinaXiv:202308.00644
下载全文

基于行为-内容融合模型的用户画像研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-08-27 合作期刊: 《图书情报工作》

余传明田鑫郭亚静安璐

摘要： [目的/意义]为识别并去除非理性投资者的网络评论，提升评论的专业程度与质量，促进理性投资，本文以识别股吧中的用户是否属于噪声投资者为研究任务，进行用户画像。[方法/过程]对股吧的用户发文内容进行深度用户表示学习（deep user representation learning），结合股吧用户的粉丝数量、影响力、关注量、自选股、吧龄、发帖量、评论量、访问量等行为特征，提出一种行为-内容融合模型（behaviour and content combined model，BCCM），并在标注数据集上进行实证与对比研究。[结果/结论]实验结果显示，该模型对噪声投资者识别的F1值为79.47%，优于决策树方法（69.90%）、SVM方法（75.61%）、KNN方法（73.21%）和ANN方法（74.83%）。在噪声投资者识别这一特定用户画像研究任务中，通过利用深度用户表示学习引入文本内容特征，能够显著提升用户画像的各种评价指标。

点击量 395 下载量 143 评论
2. ChinaXiv:202307.00492
下载全文

基于序列到序列模型的抽象式中文文本摘要研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

余传明朱星宇龚雨田安璐

摘要： [目的/意义]为更好地处理文本摘要任务中的未登录词（out of vocabulary，OOV），同时避免摘要重复，提高文本摘要的质量，本文以解决OOV问题和摘要自我重复问题为研究任务，进行抽象式中文文本摘要研究。[方法/过程]在序列到序列（sequence to sequence，seq2seq）模型的基础上增加指向生成机制和覆盖处理机制，通过指向生成将未登录词拷贝到摘要中以解决未登录词问题，通过覆盖处理避免注意力机制（attention mechanism）反复关注同一位置，以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验，检验模型效果。[结果/结论]实验结果显示，该模型生成摘要的ROUGE （recall-oriented understudy for gisting evaluation）分数高于传统的seq2seq模型以及抽取式文本摘要模型，表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题，从而显著提升文本摘要质量。

点击量 269 下载量 125 评论
3. ChinaXiv:202307.00585
下载全文

大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

余传明原赛王峰安璐

摘要： [目的/意义]以大数据环境下的文本情感分析这一特定任务为目的，对规模适配问题进行研究，为情报学领域研究人员进行大数据环境下数据分析时，实现效率和成本的最优选择提供借鉴。[方法/过程]采用斯坦福大学Sentiment140数据集，在对传统情感分析算法分析的基础上，提出了5种面向大数据的文本情感分析算法，检验各种算法在不同环境和数据规模下的适配效果，从准确性、可扩展性和效率等方面进行实证比较研究。[结果/结论]实验结果显示，本文所搭建的集群具有良好的运行效率、正确性以及可扩展性，Spark集群在处理海量文本情感分析数据时更具有效率优势，且在数据规模越大的情况下，效率优势越明显；在资源利用方面，随着节点数和核数的增加，集群的整体运行效率变化显著，配置5个4核4G内存的从节点，能够实现在高效完成分类任务的同时达到节约资源成本的效果。

点击量 257 下载量 146 评论
4. ChinaXiv:202304.00052
下载全文

异质信息网络嵌入视角下公安微博传播预测研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

孙冉安璐

摘要： [目的/意义] 预测用户是否转发、评论通缉微博，研究及评估影响通缉微博传播的重要特征，有助于公安微博提升其运营绩效，增强警民之间的沟通和合作。[方法/过程] 针对通缉微博的特点，在抽取通缉微博的用户特征、时间特征、微博文本结构特征的基础上，提取通缉微博中的案件特征，包含案件地点关键字、时间关键字、通缉令等级、有无悬赏等，利用xgboost算法计算不同特征在转发、评论预测中的重要性，并结合传播网络特征和节点属性，构建基于特征属性异质信息网络嵌入的公安微博传播预测模型，并对模型进行训练和评估。[结果/结论] 预测模型在转发、评论数据集上的AUC值分别达到0.737和0.799。由于该模型融合了网络结构特征和不同节点属性，更贴近现实的异质信息网络，相比传统的链接预测模型精确度更高。另外，特征重要性实验结果表明，所提出的案件关键字特征在影响微博转发、评论预测的所有特征中重要性最高。

点击量 167 下载量 101 评论
5. ChinaXiv:202304.00086
下载全文

大数据环境下安全情报工作协同研究——以反恐情报工作为例

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

安璐周亦文

摘要： [目的/意义] 大数据环境对安全情报工作协同提出了更高的要求，研究安全情报工作协同中的问题及其方案有助于安全情报相关部门通力合作，提升安全情报工作的成效。[方法/过程] 对大数据环境下安全情报工作协同可能遇到的问题进行探讨，以反恐情报为例，结合情报工作的流程，分析安全情报工作的主体与协同需求，提出反恐情报工作协同方案。[结果/结论] 提出的反恐情报工作协同方案为：在反恐领导小组发布的反恐情报需求指引下，公安部等专业部门协同中国人民银行、交通运输部、工业和信息化部、海关总署等一般业务部门及金融业、运输业、电信业、医疗和非营利性部门及群众等社会力量开展特定领域反恐情报的搜集、处理、分析、应用与反馈。

点击量 128 下载量 71 评论
6. ChinaXiv:202304.00109
下载全文

跨语言情境下基于对抗的实体关系抽取模型研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

余传明王曼怡安璐

摘要： [目的/意义] 从实体关系抽取视角出发，将单一语言情境下的知识获取任务扩展到跨语言情境，提升低资源语言的关系抽取效果。[方法/过程] 提出一种跨语言对抗关系抽取（Cross-Lingual Adversarial Relation Extraction，CLARE）框架，将跨语言关系抽取分解为平行语料获取和对抗适应关系抽取两个子模块。通过词典扩展或自学习方法将源语言关系抽取数据集转换为目标语言数据集，在此基础上利用对抗特征适应将源语言的特征表示迁移给目标语言，再利用训练得到的目标语言关系抽取网络对目标语言进行关系分类。[结果/结论] 将本文方法应用到以ACE2005多语言数据集为基础的英语-中文、中文-英文两种跨语言关系抽取任务上，最优模型的Macro-F1值分别为0.880 1和0.842 2。实验结果表明本文提出的跨语言对抗关系抽取CLARE框架能显著提升低资源语言实体关系抽取的效果。研究结果对于改进跨语言情境下的关系抽取模型以及促进实体关系抽取研究在情报学领域的应用具有重要意义。

点击量 157 下载量 80 评论
7. ChinaXiv:202304.00685
下载全文

社交媒体环境下突发事件严重性评估和预警机制研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

安璐陈苗苗李纲

摘要： [目的/意义] 突发事件的快速蔓延与恶化使得应急管理部门需实时评估突发事件的严重性，并建立科学的预警机制。微博等社交媒体平台为突发事件的实时研判提供了丰富的线索。[方法/过程] 从网民作用、网媒作用、事态扩散、态度倾向、网民情感等维度构建突发事件严重性评估指标，提出突发事件严重性指标的影响倾向分析及特征比较方法。以2018年“8·24乐清女孩乘车遇害案”“5·6郑州空姐打车遇害案”“8·27昆山持刀砍人案”和2017年“携程亲子园虐童事件”这4个社会安全事件的1 107 308条微博数据为例，通过突发事件严重性指标的影响倾向分析，划分突发事件严重性等级，建立突发事件预警机制。[结果/结论] 研究结果建立了突发事件的量化分级标准，为政府及时采取应急管理措施提供方法指引与数据支持。

点击量 191 下载量 86 评论
8. ChinaXiv:202304.00760
下载全文

突发传染病情境下社会化问答平台用户角色形成及转变——以知乎平台为例

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

陈苗苗安璐

摘要： [目的/意义]探究突发传染病情境下问答平台用户角色分类方法、角色形成关键因素及转变特点和差异。[方法/过程]收集问答平台Covid-19疫情数据相关数据共计702 927条,从参与程度和价值维度识别用户角色,基于信息人因子、信息因子和信息环境因子识别社区用户角色形成的影响因素,结合多分类模型和SHapley Additive exPlanations (SHAP)模型分析影响不同角色形成的关键因素,利用FP-growth关联规则算法挖掘不同角色转变下的行为模式和主题特点。[结果/结论]研究结果表明用户倾向于维持角色不变且转变方向以积极型和潜水型为主,信息量是不同角色形成的关键因素,不同转变阶段的用户角色转变特征变化程度及所有转变阶段的用户角色转变行为具有显著差异。

点击量 120 下载量 68 评论