• 基于抖音指数的甲状腺癌问题集在大型语言模型中的信息质量及可读性分析

    分类: 医学、药学 >> 临床医学 提交时间: 2025-07-14 合作期刊: 《中国全科医学》

    摘要: 背景 大型语言模型作为新技术逐渐被民众熟知与应用。甲状腺癌作为我国恶性肿瘤中的常见类型,患者对甲状腺癌科普信息需求量高,但国内仍未有对大型语言模型中甲状腺癌领域应答文本的信息质量和可读性分析的研究。目的 评估和比较国内大型语言模型(LLMs)对甲状腺癌相关问题应答文本的信息质量与可读性。方法 基于抖音指数筛选25个甲状腺癌问题作为问题集,利用DeepSeek(DeepSeek-R1-0120)、通义千问(qwen-max-2025-01-25)、智谱清言(GLM-4Plus)分别生成应答文本。采用余弦相似度计算不同时间节点生成文本的相似度以评估模型稳定性。采用改良版健康信息质量评价工具(mDISCERN)进行信息质量评价,结合中文可读性计算公式评估文本可读性。通过绘制聚类热力图、主成分分析及Friedman检验、符号秩和检验探索各模型间应答文本信息质量的差异,采用Pearson相关性分析探究信息质量和可读性的关联。结果 文本相似度评价结果显示,Deepseek文本中度相似占12%,文本高度相似占88%,通义千问和智谱清言2次应答文本高度相似占100%。3个模型的信息质量与可读性比较,差异有统计学意义(P<0.001),DeepSeek在信息质量上优于其他模型(Z=35.396,P<0.001),但可读性相对较差(R=7.525±1.006)。通义千问与智谱清言信息质量相似,但智谱清言更擅长对问题集聚类2、聚类3的应答,通义千问更擅长对问题集聚类1的应答。信息质量与可读性呈负相关(r=0.370,P=0.010)。结论 国内大型语言模型可为甲状腺癌患者提供基础健康科普,但存在生成内容不准确与人工智能(AI)幻觉,患者在实际应用大型语言模型(LLMs)获取健康信息时,应结合不同平台的应答文本及医生建议综合考虑。模型方面需要平衡信息的专业性与通俗性,并建立医疗内容安全审核机制,以确保信息的准确性与专业性。