分类: 语言学及应用语言学 >> 语言学及应用语言学 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2024-06-05
摘要: 目的 量化低资源语言平行语料的句对齐评分,获取高质量平行语料,提升机器翻译的性能。 方法 提出基于神经网络的无监督句嵌入双语平行语料句对齐评分方法 NeuroAlign:将平行句对嵌入至同一向量空间,计算平行语料中给定候选句对的对齐评分,然后根据评分排序过滤分值较低的平行句对,获得高质量的低资源语言双语平行语料。 结果 BUCC2018 平行文本挖掘任务中 F1 值可提升 0.5-0.8;CCMT2021 低资源语言神经机器翻译中 BLEU 值可提升 0.1-10.9;句对齐评分可接近人工评分。 局限 限于低资源双语平行语料的资源匮乏,未在藏汉、维汉、蒙汉以外的语言对上进行探索研究。 结论 可以有效应用至低资源语言平行语料的句对齐评分,从数据源端提升语料质量,进而改进机器翻译的效果。
分类: 计算机科学 >> 计算机软件 分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2024-04-21
摘要: 此幻灯片从背景、动机、方法、效果、展望和致谢六方面讲述了《引导大语言模型生成计算机可解析内容》的研究。全文请参考:https://arxiv.org/abs/2404.05499
分类: 计算机科学 >> 计算机软件 分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2024-04-07
摘要: 大语言模型 (Large Language Models, LLMs) 能够从大量语料的上下文中学习到模式,其包括词语之间的关系、句子的结构甚至更复杂的语义和语用信息。然而,让预训练语言模型生成结构化、严格遵循约定的内容仍然是一项挑战。本文提出了一种引导LLMs生成计算机高可用内容的方案,无需微调和额外的神经网络推理,通过提前约定的上下文无关文法 (Context-Free Grammar, CFG) 引入基于协程的内容生成约束机制,在自回归模型Transformer的解码阶段引导模型采样正确的词元,以构成符合程序约定的形式语言。这将有效地提升LLMs生成目标数据结构、类型或指令的稳定性和一致性,降低应用开发和集成的难度。本文作者先通过“匹配括号对”实验验证了GPT-2和Gemma等模型在生成DSL长度分别大于36和282时错误率就达到了95%,说明了当前LLMs在特定DSL生成上的性能问题。本文作者还提出了基于协程的DSL生成框架YieldLang,并使用LLMs在多个任务数据集上进行了实验,包括JSON、Mermaid流图和函数调用表达式生成等任务。这些实验表明本文的方法相比基准,其准确率提升到了原来的109%到1160%,并且在最好的情况下能够将LLMs生成JSON的采样次数降低到基准的约16.5%,这将有效地提高LLMs生成内容对计算机程序的可用性。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2024-01-26
摘要: 语言中的修辞如同空气一般无所不在,它不仅以狭义修辞(修辞格)的形态展现,从广义修辞观的视角看,修辞也隐含在所有语句中,内在地包含了狭义修辞的域。本文从狭义修辞格入手,以广义修辞观阐释源出语与译入语,探索了二者之间的联结关系,从广义修辞的角度分析了语句翻译过程,并形成衡量语句翻译质量的动态原则 。
分类: 语言学及应用语言学 >> 语言学及应用语言学 分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2024-01-11
摘要: 以GPT系列为代表的大规模预训练语言模型的快速发展,深刻改变了自然语言处理领域的科研与工程范式,对医疗、教育、司法、金融等相关领域产生了深远影响。同时,这也为语言本身的研究带来了一些新的可能性。本文从歧义分析出发,简要评估GPT4、百川2、ChatGLM3等模型对以歧义为代表的复杂语言现象的理解和分析能力。实验结果表明,GPT4可以融合歧义消解和句法分析等方法,有效感知和理解复杂的语言现象。对于百川2,我们可以通过提示词工程引导其对语言现象进行深入思考,在不进行参数优化时,提升其分析能力。此外,通过监测大模型在处理不同语言现象时的内部特征与神经元活动,可以直观展现语言现象与大模型之间的关系。实验结果表明,大语言模型可以辅助人类更好地理解语言的本质,揭示语言现象深层次规律,从而为语言学研究提供新的思路。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2024-01-05
摘要: 以中文母语者为被试开展词汇学习实验,既操控新颖词出现的语境情感(积极、消极、中性),又操控语境的变异性(重复、变化),检验语境情感是否可通过阅读接触,从语境迁移到新颖词以及这种迁移是否影响新颖词习得的效果,从而探索新颖词语义韵的发生机制。196名被试参加了实验,他们在不同的语境情感和语境的变异性条件下一共阅读了45个篇章,然后对9个新颖词进行情感效价评分并参加了三种不同的词汇知识测试。结果显示,只有在重复阅读相同材料的条件下,语境的情感才顺利地迁移到新颖词,表现出明显的双枣树效应,而与此相反的是,只有在变化语境下,语境情感的迁移才对新颖词词形及词义的学习具有显著的预测作用,在越积极的情感语境里,词形和词义的习得效果也越好。双枣树效应有效地解释了新颖词语义韵的发生机制,也为新词学习提供了重要启示。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2023-11-01
摘要: 以往的语音统计学习研究中,目标词的词频和转换概率都显著高于跨界词或非词,学习效应的来源并不明确。为考察转换概率在统计学习中的独立效应,实验一采用2(词长:两音节,三音节)3(迫选对类型:目标词和跨界词,目标词和非词,跨界词和非词)的被试内设计,结果发现,被试在三音节跨界词和非词迫选对中的正确率显著高于两音节相应迫选对,在三音节目标词和跨界词迫选对中的正确率边缘显著低于两音节相应迫选对。在实验二中,以音节为单位随机拼接人工语言,发现被试对实验一中所有类型的词语均未产生学习效应。由于实验一中对比情况仅有转换概率有所区别,实验二排除了音节组合偏好的干扰,因此本研究证明了转换概率在统计学习中的独立作用。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2023-08-19
摘要: 建国以来,上海、苏州两地的方言调查和研究较为全面。然而昆山作为夹在两大城市中间的城市,方言研究基本还处在起步阶段。有的人将昆山方言简单理解为上海和苏州话的过渡体。本文先分别比较三地吴语方言的音位差异,再根据中古汉语音系框架下的声韵拼合关系,对比差异,得出昆山方言的特点和演变规律。昆方言音位和苏州有严格的对应关系,几乎一样;语音上,受到上海影响,比较新;但是某些音变比上海更超前,不能简单概括为上海方言的保守形式。譬如遇摄、果摄部分字在非帮系声母后合口韵韵母音值为 əʊ ,对应上海的 u 。究竟是帮系合口圆唇化 əʊ 为 u ,还是 u 裂化为 əʊ 、 ɤʊ 等,关系到昆、沪两地语音谁新谁旧的问题。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2023-07-18
摘要: 人们长期把音节作为一级语音单位,却不知是个假象;元音和辅音一直是语音学最坚实的单位,却不知实际是字母的冒名假借;而因之形成元辅音构成音节的历史错案也无人洞察。文章分析了音节没有语言学地位的原因,叙述了元音和辅音身世不明的困惑,并从历时角度剖析音节与字母的形成渊源,以及从实验探索言语产生的单元形式,从共时角度揭示出发音时间结构对音节本质的规定。在此基础上,本文以颠覆式的思路再定义音节,重塑元辅音的真实地位和价值。文章最后提出,词的音节序列是在久远的历史演化中逐步形成的,呈现为复杂的词音节结构和有限的纯音节形式,据此可提出一套最简音节分析方案和依据历史演变过程的切分原则。
分类: 医学、药学 >> 中医学与中药学 分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2023-07-13
摘要: 长夏是中医学的重要术语,纵观诸代医家发现直至清代高士宗才明确注解过长夏之长字的读音问题,现代学者对此问题也有所探讨,但至今尚存争议。为了明确长夏之长字的读音,通过检索中医经典古籍,梳理现存文献和辨析现有学者的观点,在此基础上提出了新的见解,认为当长字读zhǎng时,有表示长者为尊之意;当读chng时,其一表达生命、生机长久不熄的美好愿望与时间持续状态长,其二表示了黄钟之宫最长也。明了长夏的读音问题有助于进一步理解长夏,有助于进一步诠释与研究中医。
分类: 心理学 >> 心理学其他学科 分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2023-07-12
摘要: 视觉情境范式是一种通过追踪、测量人眼在视觉物体上的注视轨迹来研究实时口语加工的眼动实验范式。该范式运用于语言理解类研究的理论基础是眼动连接假设(如:协同互动理论、基于目标的连接假设理论等),这些连接假设在眼动轨迹与口语加工进程之间建立起了有意义的关联。使用视觉情境范式所获取的数据能够为口语加工提供精确的时间信息,常用的数据分析方法包括:时间兴趣区内注视比例均值分析、分叉点分析、生长曲线分析等。该范式为研究词汇语音识别、句法解歧、语义理解、语篇语用信息加工等问题提供了关键性证据。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2023-04-28
摘要: 文章针对兰银官话中四个二声方言的双字调进行研究,描写并对比了四个二声方言的单字调格局与双字调格局。然后从声学角度对比分析四个二声方言内部双字调与双音节词在时长、音高和音强之间的区别,结果发现双字调的时长明显长于双音节词,音高曲线和音强曲线也有相应的区别,双字调的音强有明显音谷。最后从语言接触的角度分析兰银官话二声方言双字调特点的成因,同时指出双音节词和双字调对比研究的重要意义。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2023-04-28
摘要: 本研究通过语音意识测试探究汉语成人探测、操纵不同语音单位的能力,并讨论汉语人群押韵与基本的语音感知单位和汉语拼音知识对汉语人群建立语音意识的影响。实验以肇庆端州粤方言考察当地有/无拼音能力的两组成人被试(每组15人)在七项语音意识测试(音节意识,韵母探测,声调探测,声母探测,韵母替代、声调替代及声母删除)中的表现。测试结果显示:两组被试音节意识均完备;拼音组能熟练探测、操纵声韵调单位,非拼音组难以单独操纵声韵调,但有一定的探测能力,其中探测韵母最佳,声调次之,声母最差;产生给定刺激的押韵音节不需要从音节中提取韵母的能力;拼音组可在声-韵母边界切开音节,非拼音组不能;拼音习得会改变汉语人群的语音基本感知模式。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2023-04-28
摘要: 随着语音学技术和研究方法的进步,音位学从结构主义的方法论逐渐转向认知科学的方法论,初步形成了认知音位学。从认知音位学的角度,建立音位首先需要有语音意识,语音意识通常定义为:母语者能感知到的不区别意义的语音单位。语音意识分为自然产生的语音意识和非自然产生的语音意识两种。基于这些基本概念,本文讨论了汉语不同历史时期的音位系统:1)音节音位系统直音;2)声韵音位系统反切;3)类声韵调音位系统《广韵》;4、类声韵调音位系统注音符号;5)音素音位系统汉语拼音方案。研究发现:汉语的音位系统逐渐从基于自然语音意识的音位系统转变为基于非自然语音意识的音位系统。从语音单位上看,也从音节逐步转变为音素。基于这些研究和发现,本文对音位系统和注音系统进行了明确的定义,并阐述了两者之间的区别。根据音位系统和注音系统的定义,我们发现在汉藏语的田野调查和音位构建的研究中,大部分建立的是注音系统而非音位系统。
分类: 心理学 >> 认知心理学 分类: 心理学 >> 实验心理学 分类: 心理学 >> 心理测量 分类: 心理学 >> 心理统计 分类: 心理学 >> 心理学其他学科 分类: 语言学及应用语言学 >> 语言学及应用语言学 分类: 其他 >> 综合 提交时间: 2023-02-08
摘要: 【目的】本研究旨在建立与新冠疫情相关的多维度、标准化的词语库,从而为与新冠疫情有关的心理学或神经科学等相关领域的研究提供实验材料。【方法】本词语库参考国内外情绪词语库的建立方法并采用点探测任务以及词语库中的词语作为实验材料来检验疑似具有新冠恐惧被试的注意偏向,从而检验词语库的有效性。【结果】我们通过筛选和处理,最终将196个新冠词和99个中性词纳入了词语库,然后对词语通过6个维度进一步进行分类和评估、建立了一个标准化的中国新冠词语库,词语具有较好的信度和内部一致性。除此之外,通过点探测任务检验其效用,验证新冠高相关度的词语与具有新冠恐惧被试之间的关系,词语库可靠性较高,其中材料可作为与新冠相关的情绪和情感研究。【局限】初步样本量较少以及词语库应用面需要进一步开发。【结论】我们初步建立的中国新冠词语库具有较好的信度、内部一致性和可靠性较高,可以作为未来与新冠疫情研究相关的材料。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2022-08-10
摘要: 目的 探究锦州话句末语调上扬的出现比例及影响因素,客观展示锦州话语调特点;找出能反映句末语调上扬的声学参数,为语调声学研究奠定基础。 方法 本文结合听辨实验和声学实验,以普通话为对照,使用句末字首尾音高差、非语气词末字首尾音高差等参数描写分析了锦州话句末语调特点。 结果 句末上扬出现比例为47.6%,上扬的判定主要取决于锦州话和普通话句末字首尾音高差的关系;表疑问和震惊时锦州话比普通话上扬幅度更大;带啊陈述句表现上扬。 局限 本文仅从音高角度初步分析锦州话句末语调上扬的条件和表现,而上扬语调的音长和音强也与普通话有所不同,需要进一步探索研究。 结论 锦州话确实存在句末语调上扬现象,但并非句句上扬;句末字首尾音高差、非语气词末字首尾音高差可作为上扬判断指标。上扬与语用目的相对应,可引起他人注意以获得回应。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2022-01-05
摘要: [目的] 本文针对中文出版物中不同字体、不同书写系统的阅读绩效进行客观对比研究。 [方法] 具体地,将汉字渲染成其对应字形的图像,并进一步按照语序把句子中的汉字图像折叠成为三维的句子张量。对于同一段中文文本,用不同的字体或者简体、繁体会得到句子的视觉差异化的张量表达。通过进一步将得到句子张量输入到我们设计的深度语言模型,进行文本分类等任务的测试,可以客观地比较字体和书写系统对阅读绩效的影响。 [结果] 通过在两个中文文本分类数据集上的测试发现,一些特殊不常用字体相较于常用字体的机器识别准确度较低,并且常用字体中不同字体的阅读绩效也有差异。 [结论] 通过假设检验得出使用楷体和黑体的数据集在文本分类任务上的准确度存在显著性差异,楷体相比于黑体来说阅读绩效更高。简体中文和繁体中文的阅读绩效存在显著性差异。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2021-03-08
摘要: 河南荥阳方言属官话方言的中原官话,有阴平、阳平、上声、去声四个声调,没有入声。本文根据方言音系设计字表,以实验语音学的方法来提取代表字词的基频和时长等参数,依据五度标调法和归一法原则,分析了荥阳方言单字调和双字调的基频模式。借助Praat软件重新测定单字调中两个降调(阳平52、去声31),一个平调(上声33),一个升调(阴平23);测定了不同声调组合的双字调,并在此基础上总结了双字调的音变规则。荥阳方言双字调变调模式中,以前字变调为主,产生了53、42、44、32共4个新声调,其变调类型以简化型连调和异化型连调为主。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2021-03-08
摘要: 新绛方言属于中原官话汾河片绛州小片。本文采用实验研究的方法,以基频为主要声学参数,对运城市新绛县方言单字调和双音节连读变调进行研究。实验结果表明,新绛方言单字调有3个调类,阴平、去声调为高降调41,阳平调为中升调34,上声为平调33。在双音节连读变调中,变化较为显著,前字、后字均有变调。阳平、上声、去声同为上声前字时发生合并。双音节组合调类一共有16种模式,归并后为13个。语音变调的规律性较强。在大部分情况下,阴平调型保持降调不变,调值会有些许变化。由于有古音为入声来源的词,阳平为前字多两种组合模式。变调多在阳平和上声中发生。
分类: 语言学及应用语言学 >> 语言学及应用语言学 提交时间: 2021-03-08
摘要: 潜江方言属于北方方言区西南官话的武(汉)天(门)片,有阴平、阳平、上声、去声四个调类,历来关于潜江方言在西南官话中所属分区问题、音系系统、语法特点、词汇特点等方面的讨论成果颇丰,但未曾通过数据测量对潜江方言进行过声学分析。本文通过实验语音学的方法,运用Praat软件,通过提取潜江方言单、双字调的基频信息对潜江方言的单字调和双字调进行分析,重新测量单、双字调的调值,并总结双字调中的音变规律。