• 基于核心主题特征的作者身份识别研究

    分类: 图书馆学、情报学 >> 情报检索 提交时间: 2023-02-09

    摘要: 【背景及目的】作者识别正在向多层次特征的使用发展,而相较于文体风格特征,主题特征在历来作者识别研究应用中仍是少数,特别是针对中文社交媒体文本的作者识别。同时针对主题特征的利用研究,更多的是对主题特征的抽取技术和方法的创新,而未对识别出的主题以及主题特征的应用方法进行进一步研究。所以,本研究以主题特征在中文社交媒体文本作者识别中的使用研究为基本目的,同时进一步制定策略对主题特征中的核心主题进行识别和筛选,优化主题特征的使用方法,从而提高主题特征在作者识别中的使用效果。【方法】研究首先利用LDA主题模型抽取候选作者的学术主题和社交主题,然后利用word2vec制定合并筛选策略进行核心主题的识别和表示,最后结合N-gram特征和相似度计算的办法实现作者识别。【结果】实验结果显示主题特征在本研究语料上对作者识别有一定的积极作用,同时本研究提出的核心主题特征相关策略和应用也能优化主题特征的使用效果。