分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-06-19 合作期刊: 《计算机应用研究》
摘要: 针对日渐丰富的跨语言的文字信息资源与新闻报道及科技文献中的多标签数据,为了挖掘跨语言间的相关性及数据属性间的关联性,提出了带标签双语主题模型,应用于跨语言文本分类与标签的推荐。首先,假设科技文献中的关键词与摘要部分有着内容上的相关性,对关键词进行提取,并进行标签化,进而把标签对应于主题模型中的主题,实例化“潜在”的主题;其次,利用带标签双语主题模型对摘要部分进行了训练迭代;最后,对新加入的文档进行跨语言文本分类及标签的推荐。实验结果表明,跨语言文本分类任务中Micro-F1达到94.81%,推荐的标签也较好地体现出语义上的相关性。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-24 合作期刊: 《计算机应用研究》
摘要: 信号交叉口行人过街延误是评价信号交叉口交通运行效益和服务水平的重要度量。通过分析车头时距随交通流量而变化的统计特性,提出了基于车头时距分布自适应变化的行人过街冲突延误计算模型。首先,根据低交通流量情况下车头时距服从负指数分布时的行人过街冲突延误,分别推导出中等交通流量及高交通流量情况下的行人过街冲突延误计算模型;其次,结合无干扰条件下的相位延误和双向行人流阻滞延误得到干扰条件下的行人过街总延误计算模型;最后,通过Vissim仿真实验对模型进行了准确性验证,其偏差小于3%。此外,将提出的行人过街延误模型与以机动车到达间距服从负指数分布为假设前提的行人过街延误模型进行误差比较,结果表明所提出的延误模型误差更小。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》
摘要: 针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过word2vec对文档训练,利用得到的文档主题和词语之间的语义关系,对文档中各主题及其特征词计算概率加权和,最终通过设定合理阈值筛选出跑题作文。实验中通过改变文档的主题数而得到的不同F值,确定了最佳主题数。实验结果表明新方法比基于向量空间模型的方法更具有效性,可以检测到更多的跑题作文并且准确率较高,F值达到89%以上,实现了作文跑题检测的智能化处理,可以有效地应用在英语作文教学中。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-04-12 合作期刊: 《计算机应用研究》
摘要: 针对海量论文数据导致的应用效率低下问题,提出一个基于层次混合模型的推荐算法WSVD++。该模型根据学术论文良好的结构特征,构建一个加权的论文二部图模型。首先对论文进行特征提取,按不同特征的权重构建论文的复合关系图;其次对关系图采用一种改进的PPR算法,计算每篇论文的重要程度,依此来对用户—论文关系进行加权;然后在构建好的加权二部图模型上混合SVD++图算法进行推荐。实验结果表明,改善了推荐算法学术论文的推荐效果,并且基于分布式图计算框架GraphX,扩展性好,适合大数据处理。