“鸡尾酒会”环境中的知觉线索的去掩蔽作用(1)
摘要:在有多人同时说话的嘈杂环境中,为什么具有正常听力的人能在一定的程度上听懂目标语句?研究这个著名的“鸡尾酒会”问题的一个新进展是将干扰言语的作用区分出了能量掩蔽和信息掩蔽两种成分。与发生在外周系统的能量掩蔽不同,信息掩蔽发生在心理层次并受到认知过程的调节。因此,主观空间分离、与目标语句节奏相关的视觉信号以及对目标语句某些特征的熟悉程度等知觉线索都具有去掩蔽作用。考察可减少信息掩蔽的知觉线索的交互作用及其高级认知调节是今后重要的研究内容。
关键词:“鸡尾酒会”问题;知觉线索;选择性注意;能量掩蔽;信息掩蔽
分类号:B842.2;B849
1.“鸡尾酒会”问题
在嘈杂的室内环境中,比如在鸡尾酒会中,同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声以及这些声音经墙壁和室内的物体反射所产生的反射声等。在声波的传递过程中,不同声源所发出的声波之间(不同人说话的声音以及其他物体振动发出的声音)以及直达声和反射声之间会在传播介质(通常是空气)中相叠加而形成复杂的混合声波。因此,在到达听者外耳道的混合声波中已经不存在独立的与各个声源相对应的声波了。然而,在这种声学环境下,听者却能够在相当的程度上听懂所注意的目标语句。听者是如何从所接收到的混合声波中分离出不同说话人的言语信号进而听懂目标语句的呢?这就是Cherry在1953年所提出的著名的“鸡尾酒会”问题(Cherry.1953)。
自Cherry提出“鸡尾酒会”问题半个多世纪以来,大量的科学家试图去解决这个问题,甚至试图制造一个计算机言语识别的智能系统使其具有在嘈杂环境中识别目标语句的功能。但到目前为止,“鸡尾酒会”问题还没有得到满意的解答。为了能够更好地理解“鸡尾酒会”问题,我们首先来看看干扰性言语对目标言语能产生哪些掩蔽作用,这对深入认识这个问题的本质有重要的意义。
2.能量掩蔽和信息掩蔽
当掩蔽声音和目标声音同时出现时,尤其当两者在频谱上相互重叠时,干扰声音与目标声音一起激活了听觉外周神经系统中的相同部分,如激活了基底膜的同一部位和同一群听神经细胞。干扰声音的激活作用导致听神经细胞对目标声音反应的动态范围变小,进而导致听觉外周对目标声音的编码失真,降低听觉系统对目标声音的觉察和识别。这就是能量掩蔽的主要机制。能量掩蔽使得进入到中枢阶段的目标信息有实质性的缺失,而这种缺失是高级中枢的加工所难以补偿的。在实验室的研究中,通常使用平稳的语谱噪音作为对目标语句产生能量掩蔽的声音刺激(Arbogast,Mason&kidd,2005;Freyman,Balakrishnan&Helfer,2001;Freyman,Helfer,McCall&Clifton,1999;Li,Daneman,Qi&Schneider,2004;Wu et al.,2005)。
其他说话人的干扰性语音信号在产生能量掩蔽的同时还产生另一种值得详细研究的掩蔽作用,即作用于认知水平的信息掩蔽(Li et al.,2004;Oxenham,Fligor,Mason&Kidd,2003;Shim-Cunningham,lhlefeld,Satyavarta&Larson,2005;Summers&Molls,2004;Wu et al.,2005)。当掩蔽声音和目标声音在某些信息维度上具有一定的相似性时,例如当目标声音与掩蔽声音都是由同性别嗓音所读出的同语种的言语时,目标言语和掩蔽言语在高级认知层次上会争夺有限的心理资源并出现言语编码的混淆,进而使对目标信号的加工受到干扰。这种发生在高级加工层次上的干扰作用被称为信息掩蔽(Bmngart,2001;Brungart,Simpson,Ericson&Scott,2001;Freyman et al.,1999,2001;Kidd et al.,2002;Li et al.,2004)。在一个典型的信息掩蔽过程中,由于干扰言语的能量在时间上有明显的波动,听觉外周系统可以利用高信噪比的时间段对目标信号进行有效的接收和神经编码,即听者能够觉察到目标语句的出现。但由于信息掩蔽的作用,听者仍然不能有效和准确地追随目标语句,进而导致对目标语句的识别率下降。与能量掩蔽不同,由于信息掩蔽发生在认知加工阶段,一些认知操作可以减少或消除由信息掩蔽所引起的对目标语句识别率的影响。
因此我们认为,认识“鸡尾酒会”问题之本质就是要认识信息掩蔽的本质,而听者利用不同的知觉线索来减少和消除信息掩蔽作用的认知操作又是一个最为核心的问题。下面我们将对几种重要的相关的知觉线索作一个总结。
3.主观空间分离与信息掩蔽
Cherry(1953)在他所提出“鸡尾酒会”问题的文章中,同时也提出了几种可能被用来减少和消除言语掩蔽的线索,其中一个重要的线索是干扰声音与目标声音之间的空间分离。
根据Zurek(1993)所提出的理论,目标声源和干扰声源之间的空间分离主要通过两种效应来减少干扰声音对目标声音的掩蔽。一是头影效应或优势耳效应。由于人的头颅对声音中高频成分的传播具有遮挡作用,目标声源和干扰声源之间的空间分离可以提高某只耳朵上的信噪比,从而提高对目标信号的识别。这是一种声学物理的效应。二是目标声源与掩蔽声源之间的空间分离可以造成双耳线索上的差异,尤其是目标信号与掩蔽信号中的低频成分的双耳时间差的不同产生了双耳神经生理加工的线索,进而降低了对目标信号的觉察阈限。那么,目标声源和干扰声源之间的空间分离除了产生物理线索和神经生理线索外,是否还能产生在心理层次上的线索以减少掩蔽作用?
已有充分的研究结果表明,在有回声的环境中,空间分离所带来的头影作用和双耳神经加工的作用都会受到削弱(Freyman et al.,1999;Kidd,Arbogast,Mason&Gallun,2005;Zurelc,Freyman&Balakrishnan。2004)。然而,当掩蔽刺激是言语时,目标言语与掩蔽言语之间的空间分离仍然能提高听者对目标言语的识别(Kidd et al.,2005)。这表明目标言语与掩蔽言语之间的空间分离不仅提供了头影效应和双耳加工这两类线索,还提供了其他线索,而且这种额外的线索所引起的去掩蔽作用是Zurek的理论所不能解释的。在认识这种线索之前,需要介绍一下听觉优先效应的概念。
当两个相关(correlated)的声源发自不同的空间位置,并且它们之间有充分短的延迟(1~10ms)时,落后声音中的知觉特征(attributes)会在知觉层次上被领先声音所“捕获”(Li,Qi,He,Alain&Schneider,2005),使得听者只知觉到一个融合的声, 百拇医药(徐李娟 黄 莹 吴玺宏 吴艳红 李 量)
关键词:“鸡尾酒会”问题;知觉线索;选择性注意;能量掩蔽;信息掩蔽
分类号:B842.2;B849
1.“鸡尾酒会”问题
在嘈杂的室内环境中,比如在鸡尾酒会中,同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声以及这些声音经墙壁和室内的物体反射所产生的反射声等。在声波的传递过程中,不同声源所发出的声波之间(不同人说话的声音以及其他物体振动发出的声音)以及直达声和反射声之间会在传播介质(通常是空气)中相叠加而形成复杂的混合声波。因此,在到达听者外耳道的混合声波中已经不存在独立的与各个声源相对应的声波了。然而,在这种声学环境下,听者却能够在相当的程度上听懂所注意的目标语句。听者是如何从所接收到的混合声波中分离出不同说话人的言语信号进而听懂目标语句的呢?这就是Cherry在1953年所提出的著名的“鸡尾酒会”问题(Cherry.1953)。
自Cherry提出“鸡尾酒会”问题半个多世纪以来,大量的科学家试图去解决这个问题,甚至试图制造一个计算机言语识别的智能系统使其具有在嘈杂环境中识别目标语句的功能。但到目前为止,“鸡尾酒会”问题还没有得到满意的解答。为了能够更好地理解“鸡尾酒会”问题,我们首先来看看干扰性言语对目标言语能产生哪些掩蔽作用,这对深入认识这个问题的本质有重要的意义。
2.能量掩蔽和信息掩蔽
当掩蔽声音和目标声音同时出现时,尤其当两者在频谱上相互重叠时,干扰声音与目标声音一起激活了听觉外周神经系统中的相同部分,如激活了基底膜的同一部位和同一群听神经细胞。干扰声音的激活作用导致听神经细胞对目标声音反应的动态范围变小,进而导致听觉外周对目标声音的编码失真,降低听觉系统对目标声音的觉察和识别。这就是能量掩蔽的主要机制。能量掩蔽使得进入到中枢阶段的目标信息有实质性的缺失,而这种缺失是高级中枢的加工所难以补偿的。在实验室的研究中,通常使用平稳的语谱噪音作为对目标语句产生能量掩蔽的声音刺激(Arbogast,Mason&kidd,2005;Freyman,Balakrishnan&Helfer,2001;Freyman,Helfer,McCall&Clifton,1999;Li,Daneman,Qi&Schneider,2004;Wu et al.,2005)。
其他说话人的干扰性语音信号在产生能量掩蔽的同时还产生另一种值得详细研究的掩蔽作用,即作用于认知水平的信息掩蔽(Li et al.,2004;Oxenham,Fligor,Mason&Kidd,2003;Shim-Cunningham,lhlefeld,Satyavarta&Larson,2005;Summers&Molls,2004;Wu et al.,2005)。当掩蔽声音和目标声音在某些信息维度上具有一定的相似性时,例如当目标声音与掩蔽声音都是由同性别嗓音所读出的同语种的言语时,目标言语和掩蔽言语在高级认知层次上会争夺有限的心理资源并出现言语编码的混淆,进而使对目标信号的加工受到干扰。这种发生在高级加工层次上的干扰作用被称为信息掩蔽(Bmngart,2001;Brungart,Simpson,Ericson&Scott,2001;Freyman et al.,1999,2001;Kidd et al.,2002;Li et al.,2004)。在一个典型的信息掩蔽过程中,由于干扰言语的能量在时间上有明显的波动,听觉外周系统可以利用高信噪比的时间段对目标信号进行有效的接收和神经编码,即听者能够觉察到目标语句的出现。但由于信息掩蔽的作用,听者仍然不能有效和准确地追随目标语句,进而导致对目标语句的识别率下降。与能量掩蔽不同,由于信息掩蔽发生在认知加工阶段,一些认知操作可以减少或消除由信息掩蔽所引起的对目标语句识别率的影响。
因此我们认为,认识“鸡尾酒会”问题之本质就是要认识信息掩蔽的本质,而听者利用不同的知觉线索来减少和消除信息掩蔽作用的认知操作又是一个最为核心的问题。下面我们将对几种重要的相关的知觉线索作一个总结。
3.主观空间分离与信息掩蔽
Cherry(1953)在他所提出“鸡尾酒会”问题的文章中,同时也提出了几种可能被用来减少和消除言语掩蔽的线索,其中一个重要的线索是干扰声音与目标声音之间的空间分离。
根据Zurek(1993)所提出的理论,目标声源和干扰声源之间的空间分离主要通过两种效应来减少干扰声音对目标声音的掩蔽。一是头影效应或优势耳效应。由于人的头颅对声音中高频成分的传播具有遮挡作用,目标声源和干扰声源之间的空间分离可以提高某只耳朵上的信噪比,从而提高对目标信号的识别。这是一种声学物理的效应。二是目标声源与掩蔽声源之间的空间分离可以造成双耳线索上的差异,尤其是目标信号与掩蔽信号中的低频成分的双耳时间差的不同产生了双耳神经生理加工的线索,进而降低了对目标信号的觉察阈限。那么,目标声源和干扰声源之间的空间分离除了产生物理线索和神经生理线索外,是否还能产生在心理层次上的线索以减少掩蔽作用?
已有充分的研究结果表明,在有回声的环境中,空间分离所带来的头影作用和双耳神经加工的作用都会受到削弱(Freyman et al.,1999;Kidd,Arbogast,Mason&Gallun,2005;Zurelc,Freyman&Balakrishnan。2004)。然而,当掩蔽刺激是言语时,目标言语与掩蔽言语之间的空间分离仍然能提高听者对目标言语的识别(Kidd et al.,2005)。这表明目标言语与掩蔽言语之间的空间分离不仅提供了头影效应和双耳加工这两类线索,还提供了其他线索,而且这种额外的线索所引起的去掩蔽作用是Zurek的理论所不能解释的。在认识这种线索之前,需要介绍一下听觉优先效应的概念。
当两个相关(correlated)的声源发自不同的空间位置,并且它们之间有充分短的延迟(1~10ms)时,落后声音中的知觉特征(attributes)会在知觉层次上被领先声音所“捕获”(Li,Qi,He,Alain&Schneider,2005),使得听者只知觉到一个融合的声, 百拇医药(徐李娟 黄 莹 吴玺宏 吴艳红 李 量)