Current Location:home > Browse

1. chinaXiv:201712.01360 [pdf]

基于维基百科的多种类型文献自动分类 研究*

李湘东; 阮 涛; 刘 康
Subjects: Library Science,Information Science >> Information Science

【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分 类效果。【方法】在特征扩展之前, 对 TF-IDF 加以改进, 提出并使用一种新的特征选择方法 CDFmax-IDF 获得候 选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关 系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的 LDA 概率主题模 型 wLDA 模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN 和 SVM 三种分类器上实现分 类, 其 marco-F1 和 micro-F1 分别提升 1.6%-2.8%和 1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互 联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结 论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献 的自动分类效果。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits1116Downloads380 Comment 0

2. chinaXiv:201712.01372 [pdf]

基于标签的商品推荐模型研究*

涂海丽; 唐晓波
Subjects: Library Science,Information Science >> Information Science

【目的】构建社会化电子商务环境下基于标签的个性化商品推荐模型。【方法】综合考虑用户使用标签的 频率和时间因素计算用户的兴趣偏好; 基于标签层次特征和电子商务网站中关于商品特征的检索条件, 构建某 一主题商务社区中商品本体; 利用本体规范化用户标签语义, 并对商品进行分类; 寻找含有用户偏好的类簇, 计 算该类簇中商品与用户偏好商品的相似度, 将用户未标注过的商品与用户偏好相似度高的商品推荐给用户。 【结果】从翻东西网站上随机选取 200 个活跃用户关于热门商品的标注信息进行分析, 验证该模型的有效性。【局 限】在计算用户兴趣偏好时, 只考虑用户使用标签的频率和时间因素, 未考虑其他因素。【结论】该模型相对于 利用标签进行协同过滤推荐方法具有较优的效果, 计算时间和空间复杂度更小。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits988Downloads241 Comment 0

3. chinaXiv:201712.01382 [pdf]

基于多特征融合的金融领域科研合作推荐 研究*

余传明; 龚雨田; 赵晓莉; 安 璐
Subjects: Library Science,Information Science >> Information Science

【目的】科研合作关系是一种重要的社会网络。为了促进科研合作, 提高科研生产率, 对金融领域的科研 合作推荐模型进行研究。【方法】建立金融领域个人、机构和区域三个层面的科研合作网络, 提出一种新的融合 基于邻居节点和基于路径的网络特征的科研合作推荐模型, 并从个人、机构和区域三个层面进行实证检验。【结 果】通过对 2000 年到 2014 年刊载的 68 905 篇金融领域的文章进行分析并构建科研合作网络, 在个人、机构和 区域三个层面上, 基于特征融合的链接预测方法的 AUC 值分别为 84.25%、87.34%和 91.84%, 均高于基于邻居 节点的算法和基于路径的算法的 AUC 值。【局限】在进行训练集和测试集选取的时候只按时间进行切分, 有待 使用更多的切分方式对实验结果进行优化。【结论】本文有助于金融科研领域的个人、机构和区域寻求合作对象, 为进行科研网络的研究以及科研合作推荐的学者提供新的研究方法和思路。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits395Downloads259 Comment 0

4. chinaXiv:201712.01386 [pdf]

基于迭代超中心度的 MOOC 论坛用户知识 互动超网络研究*

吴 江; 贺超城; 马磐昊
Subjects: Library Science,Information Science >> Information Science

【目的】更好地反映 MOOC 论坛参与者的活跃水平以及论坛主题的质量, 以提高学员的论坛参与度, 发 挥 MOOC 社会效应。【方法】提出超网络下“迭代超中心度”概念和算法, 通过多次迭代, 直至收敛, 将整个网络 的节点考虑在内, 以更全面地反映出不同节点的重要性与影响力。【结果】传统网络指标揭示的信息有限, 点度 小的节点, 其重要性与影响力可能大; 点度相同的节点, 重要性与影响力也会不同。迭代超中心度全面衡量节点 的重要性, 在 MOOC 中更能反映出节点推动知识流动的能力。【局限】数据量比较少, 只对一门课程进行分析, 没有从更多的超网络指标进行分析。【结论】“迭代超中心度”可以揭示出论坛参与者的活跃水平以及论坛主题的 质量, 可以作为一种改进论坛设置的评价指标。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits346Downloads223 Comment 0

5. chinaXiv:201712.01387 [pdf]

近 5 年信息检索的研究热点与发展趋势 综述* ——基于相关会议论文的分析

杨超凡; 邓仲华; 彭 鑫; 刘 斌
Subjects: Library Science,Information Science >> Information Science

【目的】统计近 5 年相关会议集收录的论文, 分析信息检索的研究热点与发展趋势。【文献范围】检索 2012 年–2016 年 ACL、ACMMM、ICML、KDD、SIGIR 等 5 个信息检索领域的相关会议集收录的论文。【方法】使 用爬虫软件获取 5 个相关会议收录的论文的摘要和关键词, 并利用分词工具对其处理, 进行统计分析和文献研 究。【结果】发现目前信息检索中移动搜索是主流; 检索模型不断优化; 注重过滤和推荐; 与人工智能关系密切, 用户隐私以及医疗健康也是信息检索重点关注的内容。【局限】仅采集论文的摘要和关键词数据, 未进行全文内 容以及引文的分析。【结论】反映目前信息检索的大致发展状况, 为其他学者开展新的研究提供借鉴和参考。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits425Downloads273 Comment 0

6. chinaXiv:201712.01391 [pdf]

基于深度表示学习的跨领域情感分析

余传明; 冯博琳; 安 璐
Subjects: Library Science,Information Science >> Information Science

【目的】通过在标注资源丰富的源领域中学习, 并将目标领域的文档投影到与源领域相同的特征空间中去, 从而解决目标领域因数据量较小难以获得好的分类模型的问题。【方法】选择亚马逊在线购物网站在书籍、DVD 和音乐类目下的中文、英文和日文评论作为实验数据, 在卷积神经网络和结构对应学习的基础上提出跨领域深 度表示模型(CDDRM), 以实现不同领域环境下的知识迁移, 并将其应用到跨领域情感分析任务之中。【结果】实 验结果表明, CDDRM 在跨领域环境下最优的 F 值达到 0.7368, 证明了该模型的有效性。【局限】CDDRM 针对长 文本的跨领域情感分类 F 值仍然有待提升。【结论】知识迁移能够解决监督学习在小数据集上难以获得好的分类 效果的问题, 与传统监督学习的基本假设相比, 它并不要求训练集和测试集服从相同或相似的数据分布。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits375Downloads237 Comment 0

7. chinaXiv:201712.01399 [pdf]

基于二模复杂网络的共享经济平台用户 交互行为研究*

陈 远; 刘福珍; 吴 江
Subjects: Library Science,Information Science >> Information Science

【目的】在“共同拥有而不占有”的共享经济理念下, 探索如何优化供需方的服务。【方法】爬取“小猪短租” 的用户数据, 利用二模网络分析工具Ucinet 探究用户位置演变, 结合一模网络中用户复杂关系, 构建固定效应模 型分析个体中心度对相连用户交易行为的影响程度。【结果】度数中心度会正相关显著影响相连用户行为, 而房 东中介中心度显著影响房客消费行为, 核心房客中介中心度显著影响房东订单供应行为。【局限】主要针对互动 性强的用户采取滚雪球抽样, 无法完全体现整个关系网络的特点。【结论】为了促进小猪短租因交易行为构建的 社会网络活跃, 应鼓励用户充当消费者, 并主动参与其中作为服务提供商。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits509Downloads343 Comment 0

8. chinaXiv:201712.01402 [pdf]

融合多源网络评估数据及 URL 特征的钓鱼 网站识别技术研究*

胡忠义; 王超群; 吴 江
Subjects: Library Science,Information Science >> Information Science

【目的】充分利用多源网络评估数据和 URL 异常特征数据, 研究提高钓鱼网站识别准确性的可行性方案。 【方法】采用 8 种机器学习技术, 对比研究网络评估数据与传统的 URL 异常特征数据在钓鱼网站识别中的性能, 并融合两类数据研究进一步提高钓鱼网站识别准确性的可行性方案。【结果】在钓鱼网站识别中, 相比于传统的 URL 异常特征, 利用网络评估数据可以取得更好的识别效果。融合两类数据对于提高识别准确性有一定帮助。 【局限】未考虑钓鱼网站与正常网站的数量存在严重的不均衡问题。【结论】充分利用多源网络评估数据和 URL 异常特征数据识别钓鱼网站的方法是比较合理和有效的, 对后续相关研究具有一定的借鉴意义。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits479Downloads336 Comment 0

9. chinaXiv:201712.01595 [pdf]

基于标签的商品推荐模型研究*

涂海丽; 唐晓波
Subjects: Library Science,Information Science >> Information Science

【目的】构建社会化电子商务环境下基于标签的个性化商品推荐模型。【方法】综合考虑用户使用标签的 频率和时间因素计算用户的兴趣偏好; 基于标签层次特征和电子商务网站中关于商品特征的检索条件, 构建某 一主题商务社区中商品本体; 利用本体规范化用户标签语义, 并对商品进行分类; 寻找含有用户偏好的类簇, 计 算该类簇中商品与用户偏好商品的相似度, 将用户未标注过的商品与用户偏好相似度高的商品推荐给用户。 【结果】从翻东西网站上随机选取 200 个活跃用户关于热门商品的标注信息进行分析, 验证该模型的有效性。【局 限】在计算用户兴趣偏好时, 只考虑用户使用标签的频率和时间因素, 未考虑其他因素。【结论】该模型相对于 利用标签进行协同过滤推荐方法具有较优的效果, 计算时间和空间复杂度更小。

submitted time 2017-11-30 From cooperative journals:《数据分析与知识发现》 Hits363Downloads250 Comment 0

10. chinaXiv:201712.01600 [pdf]

基于多特征融合的金融领域科研合作推荐 研究*

余传明; 龚雨田; 赵晓莉; 安 璐
Subjects: Library Science,Information Science >> Information Science

【目的】科研合作关系是一种重要的社会网络。为了促进科研合作, 提高科研生产率, 对金融领域的科研 合作推荐模型进行研究。【方法】建立金融领域个人、机构和区域三个层面的科研合作网络, 提出一种新的融合 基于邻居节点和基于路径的网络特征的科研合作推荐模型, 并从个人、机构和区域三个层面进行实证检验。【结 果】通过对 2000 年到 2014 年刊载的 68 905 篇金融领域的文章进行分析并构建科研合作网络, 在个人、机构和 区域三个层面上, 基于特征融合的链接预测方法的 AUC 值分别为 84.25%、87.34%和 91.84%, 均高于基于邻居 节点的算法和基于路径的算法的 AUC 值。【局限】在进行训练集和测试集选取的时候只按时间进行切分, 有待 使用更多的切分方式对实验结果进行优化。【结论】本文有助于金融科研领域的个人、机构和区域寻求合作对象, 为进行科研网络的研究以及科研合作推荐的学者提供新的研究方法和思路。

submitted time 2017-11-30 From cooperative journals:《数据分析与知识发现》 Hits414Downloads247 Comment 0

123  Last  Go  [3 Pages/ 28 Totals]