人文社科领域中文通用大模型性能评测

Performance Evaluation of Chinese Universal Large Model in the Field of Humanities and Social Sciences

作者： 赵志枭 ¹ 胡蝶 ¹ 刘畅 ¹ 沈思 ² 王东波 ¹
作者单位：

1. 南京农业大学信息管理学院

2. 南京理工大学经济管理学院
通讯作者： 王东波 Email:db.wang@njau.edu.cn
提交时间：2024-05-08 09:20:57

摘要: 目的/意义本文以人文社科领域为出发点，从人文社科领域基础知识与人文社科学术文本两个方面入手进行人文社科领域模型性能比对。旨在为人文社科领域提供一份体系化的大模型评测基准，供人文社科相关领域研究人员参考。方法/过程设计了7个人文社科领域相关的评测任务并选取对应指标，在此基础上，选取了当前开源且性能较优的通用领域中文大模型，通过调用本地模型以问答形式完成领域化任务，并选取相关指标对其在人文社科领域的性能进行了量化评测。结果/结论评测结果表明，在本文选取的开源模型中，无论是基座模型还是对话模型，Qwen性能最优，Baichuan2紧随其后，InternLM次之，Atom表现最差，此外，大多数情况下，相较于基座模型，对话模型表现出了更加优越的性能。

人文社科大模型评测领域知识学术文本

来自： 赵志枭
期刊： 图书情报工作
分类： 图书馆学、情报学 >> 情报学
投稿状态： 已被期刊接收
引用： ChinaXiv:202405.00025 (或此版本 ChinaXiv:202405.00025V1)
DOI:10.12074/202405.00025V1
CSTR:32003.36.ChinaXiv.202405.00025.V1
推荐引用方式： 赵志枭,胡蝶,刘畅,沈思,王东波.(2024).人文社科领域中文通用大模型性能评测.图书情报工作.doi:10.12074/202405.00025V1 (点此复制)

版本历史

[V1]

2024-05-08 09:20:57

ChinaXiv:202405.00025V1

下载全文

相关论文推荐

1. 强化故事力打造优质短视频显著提升阅读推广效果	2024-05-22
2. 考虑节点间强弱关系的突发事件信息传播网络分析	2024-05-15
3. 科技赋能非遗转化与发展路径研究	2024-05-15
4. 情绪因素影响下突发公共事件网络舆情演化及政府应对研究——基于三方演化博弈视角	2024-05-15
5. 面向数字包容的农民信息获取行为分析：群体聚焦与现实关切	2024-05-15
6. 发展新质生产力的信息资源管理学科回应与思考	2024-05-15
7. 关于一个合理的公共产品决定只能来自于一个可以胜任的公共权力机关的论断是否是阿罗不可能定理的推论的文献考证	2024-05-12
8. 结合本地实际统筹做好草原牧区公共阅读推广工作思忖	2024-05-09
9. 基于科学学理论的科技期刊影响力提升策略研究	2024-05-08
10. 基于改进SEIRS模型的网络舆情衍生话题传播建模与仿真分析	2024-05-06


公开评论匿名评论仅发给作者