【成果速递】魏岩军课题组在Journal of Speech Language and Hearing Research发文揭示视听跨模态整合和高变异语音对普通话声调感知的共同作用。
2022年11月,语言认知科学学科创新引智基地专职研究人员魏岩军博士课题组在Journal of Speech Language and Hearing Research发表论文“Visual–auditory integration and high-variability speech can facilitate Mandarin Chinese tone identification”。
前人研究表明,普通话听觉声调与描绘声调音高轮廓的视觉信息(比如,调号、手势等)相结合能够促进声调感知(以下简称“视觉效应”)。本研究进一步将视听跨模态整合与高低语音变异性同时考察,试图揭示两者对声调感知的共同作用以及声调语言学习经验对视觉效应的调节作用。
本研究包含三个实验,分别以无声调语言经验说话人、初级普通话二语学习者和汉语母语者为被试。实验采用启动范式,选用普通话二声和四声的听觉刺激作为目标项,要求被试根据音高上升还是下降进行又快又准的声调判断。视觉信息采用移动箭头这一符号化手段描绘声调的音高轮廓,上升箭头对应二声,下降箭头对应四声。启动项呈现的是四种不同的多模态条件(见表1):1)仅视觉刺激(A-V+);2)听觉和视觉刺激(A+V+);3)无刺激(A-V-),作为A-V+的控制条件;(4)仅听觉刺激(A+V-),作为A+V+的控制条件。实验同时针对听觉刺激操纵了语音变异性,分为高变异刺激(发音人为三男三女,每人各一遍)和低变异刺激(发音人为一名男性,同样的刺激发音六遍)。实验记录了声调辨认的准确率和反应时,并计算了反映声调区分能力的d’值。
对于无任何声调语言学习经历的说话人,跨模态整合条件下(A+V+ vs. A+V−)下产生的视觉效应在准确率上优于单模态条件(A−V+ vs. A−V−)(见表2)。A+V+比A+V−更高的d’也说明了这一点(见表3)。视觉信息作为听觉声调的概念隐喻,使得听觉和视觉可以投射到共同的表征之上,从而促进了声调感知。然而,反应时结果并没有表现出上述模式。这可能是由于视听信息整合时会产生认知负荷,需要一定的加工时间完成跨模态整合。
单模态条件下在准确率和反应时上的视觉效应仅在高变异语音中出现,而在低变异语音中没有出现。原因主要在于以下方面:一是相比于转瞬即逝的听觉刺激,视觉符号更具稳定性和可加工性,从而引导听音人更为注重难以察觉的声调调形变化;二是视觉符号有助于听音人在声调辨认过程中,将不同声调范畴在声学特征上的范畴间差异赋予更大权重(比如调形),而忽视范畴内声学差异(比如,绝对音高、音色、音强等);三是两个视觉符号的存在,使得听音人能够将千变万化的语音信号归为两个有限的范畴,有效形成了音和形之间多对一的匹配关系,控制在了人类的认知阈限之内。
结合三个实验结果发现,声调语言学习经历越少,视觉效应越强。这跟普通话声调的听觉表征和视觉表征的离合程度有关。母语者视听信息共享同一表征,加工听觉信息无需视觉信息的辅助;无声调语言经历说话人尚未建立普通话声调的听觉表征,需要视觉信息加以辅助;二语学习者处于中间过渡状态,处理简单任务时(低变异刺激和正确率结果)无需视觉信息,处理复杂任务时(高变异刺激和反应时结果)则需要视听模态的整合以促进听觉信息的感知。
综上,我们的研究揭示了视听整合在声调感知中的优势和劣势,以及跨模态整合与高变异语音对声调感知的共同作用,对声调感知的语音符号化和范畴化理论有所启示。
魏岩军博士为论文第一作者和通讯作者,北京华文学院贾琳博士、澳门大学高飞博士、北京语言大学语言认知科学学科创新引智基地王建勤教授为论文共同作者。本研究为北京市社科基金青年项目成果。本研究也得到卡内基梅隆大学Seth Wiener,Eric Thiessen,Brian MacWhinney教授和巴斯克中心Pedro Paz-Alonso教授的学术支持。
论文信息:
Wei, Y*., Lin, J., Gao, F., & Wang, J. (2022). Visual–auditory integration and high-variability speech can facilitate Mandarin Chinese tone identification, Journal of Speech, Language and Hearing Research, 65(11): 4096-4111.