人工电子耳蜗_语音信号处理_电刺激

人工电子耳蜗语音信号处理方法的研究进展

http://www.100md.com 《生物医学工程学杂志》 1999年第3期

     作者：聂开宝蓝宁高上凯杨福生

    单位：清华大学电机系生物医学工程及仪器组，北京 100084

    关键词：人工电子耳蜗；语音信号处理；电刺激；康复工程

    生物医学工程学杂志990325 摘要人工电子耳蜗是全聋人康复的一项新技术。我们从系统角度出发，首先简单阐述了其原理及系统设计，在此基础上重点综述了目前人工电子耳蜗中所涉及的语音信号处理方法的研究进展状况，并对未来的研究提出了设想。

    Advances of Research on Speech Signal Processing Strategy

    in Cochlear Implant

    Nie Kaibao Lan Ning Gao Shangkai Yang Fusheng
, http://www.100md.com
    (Department of Electrical Engineering, Tsinghua University,Beijing 100084)

    Abstract Cochlear implant is a new technology to restore hearing ability to totally deaf people. First of all, this paper presents its principle and system design. Then, the advances of research on its speech signal processing strategy is reviewed in detail. Finally, on the basis of preliminary results, further promising development in cochlear implant is proposed.
, http://www.100md.com
    Key words Cochlear implant Speech signal processing Electrical stimulation Rehabilitation

    1 引言

    人工电子耳蜗(Cochlear Implant)是近年来迅速发展起来的一项聋人康复新技术，其基本原理是用微弱电流脉冲直接兴奋聋人耳蜗内的听神经，使聋人恢复听觉。人工电子耳蜗可以在某种程度上使全聋人实现语言的理解能力，特别是对全聋儿童，若在早期植入这种装置，会达到比较好的效果。

    据调查，我国目前大约有2300万听力不同程度(45dB以上)受损患者^[1]，其中600万为全聋人，300万为聋儿。对于低度听障患者，助听器可以帮助提高听力，而对于重度听障患者(95dB以上)，助听器已失去效能。在目前生物及医学技术的限制下，人工电子耳蜗是恢复全聋人听觉的一种比较有效的方法。
, http://www.100md.com
    残疾人的康复是全社会关注的重要事情，人工电子耳蜗的研究价值在于其重大的经济及社会意义。但是，人工电子耳蜗研究与开发涉及电子学、微电子学、材料科学、医学等多种学科，是一项系统工程。在人工电子耳蜗的研究中，语音信号的处理是非常关键的，听觉恢复的效果与语音信号的处理方法有直接的关系。因此，本文在对人工电子耳蜗的系统设计作初步的分析之后，重点介绍目前国外在语音信号的处理方面提出的几种新方案。

    2 人工电子耳蜗的设计原理

    2.1 工作原理

    人工电子耳蜗是功能性电刺激(Functional Electrical Stimulation，FES)在康复工程中的应用之一。FES的原理是基于神经细胞的电兴奋性；当对神经细胞施加一定的外电流，细胞就会产生一个动作电位，这个动作电位会沿神经纤维传播到末端，引起末端器官的反应。目前，FES技术已在残疾人运动功能(如手抓物，站立，行走等)、器官功能(如心脏起搏器)、视觉及听觉功能康复等许多方面得到广泛的应用^[15]。
, 百拇医药
    要研究电子耳蜗的工作原理，首先应当了解正常人的听觉是如何产生的。正常人听觉产生的机理比较复杂，涉及到生理学的研究范围，但可以简单地作如下概括：外界的声音振动经鼓膜、三块听小骨传至耳蜗，耳蜗内的淋巴液的振动又引起基底膜的上下行波式移动。基底膜上有很多微小的纤毛细胞，这些毛细胞随基底膜的波动而摆动，将机械振动转变为电信号，刺激耳蜗内的听神经，神经兴奋经神经元传至大脑语言中枢。失聪的原因可能是由于听觉传导通路中某一部分损伤(传导性耳聋)，或者药物致使毛细胞受损，以及毛细胞先天性发育不全(神经性耳聋)等原因造成。但是，多数失聪者的听神经是完好或部分完好的，因此尚存在电刺激兴奋的可能性，即电刺激的方法可以恢复听觉，特别是语言的感知能力。

    从生理上讲，内耳耳蜗形似蜗牛壳，从尖端到底高约为5 mm，耳蜗绕蜗轴盘旋

周。从耳蜗的截面看，耳蜗被前庭膜和基底膜分为三部分：前庭阶、蜗管和鼓阶。基底膜从蜗底到蜗顶逐渐变宽，且底部比顶部较硬，其上面的毛细胞与听神经纤维相连。1960年，G.Von,Bekesy用正弦信号对耳蜗的特性进行了研究，证明了从蜗底到蜗顶，不同部分感受的音频频率是不同的，蜗底感受的频率较高，而蜗顶则感受较低的频率。由此可见，耳蜗可以被简单地认为是一个空间的机械式频率分析器。
, 百拇医药
    人工电子耳蜗是对耳蜗特性的一种模仿，依据耳蜗对语音的部位编码原理，将苦干个电极植入耳蜗的鼓阶内，体外的语音信号经处理器处理后产生相应电极的电刺激脉冲，直接兴奋耳蜗内不同部位电极附近的听神经，可以使全聋人感受到声音。依据以上分析，电子耳蜗系统的设计可以作如下简述。

    2.2 系统设计

    人工电子耳蜗系统可以分为体外和体内两部分。体外部分主要进行语言信号的采集、处理和编码、发送，主要包括麦克风、语音处理器、编码发射器、发射线圈等。植入体内的部分为接收线圈、接收解码器、刺激器和电极阵列^{[6，7，11，12]}。人工电子耳蜗的系统结构见图1。

    图1 人工电子耳蜗的系统结构图

    Fig 1 System structure of a cochlear implant
, 百拇医药
    语音信号处理器将麦克风检测到的声音信号进行特征提取或滤波等处理，产生不同电极的电刺激信号，编码发射器将这些信号编码、调制为高频信号，通过发射线圈将信号以无线方式发送至体内。体内的接受线圈接受到信号后，接收解码器进行解调、解码后还原出刺激信号，然后控制一个刺激电流生成器，产生相应电极的电刺激信号，并通过植入鼓阶内的电极阵列兴奋听神经。

    目前电子耳蜗产品主要有澳大利亚Nucleus公司的22导人工电子耳、美国Minimed公司的16通道装置、Ineraid、Clarion等公司的产品^[1，16]以及奥地利的电子耳蜗等。

    在这些产品中，语音信号的处理方法有较大的差别，各种装置都有特定的处理方法，获得了一定的效果，以下就语音信号的处理发展和几种新方案进行初步的分析和介绍。

    3 语音信号处理方案的研究进展

, 百拇医药     国外自60年代起开始进行人工电子耳蜗的实验性研究工作，从最初的单导已发展为目前的多导系统，相应的语音信号处理方法也从简单到目前采用数字信号处理器的复杂系统。

    语音信号处理部分的功能是将语音信号转换为与耳蜗中的电极相对应的电刺激信号，音频处理的范围一般为100 Hz～4 KHz。电子耳蜗的语音处理方法与耳蜗如何将语音振动信号转变为电信号的生理机制有关，因为人工电子耳蜗是一种仿生系统。

    人工电子耳蜗的语音信号处理方法大致可以划分为两大类，一类是基于特征提取，即提取语音信号的基频和共振峰等特征信息，然后产生相应的刺激信号；另一类是基于滤波器组的方法，即对语音信号进行分频段滤波处理，直接得到电极的刺激信号。

    3.1 基于特征提取的信号处理方案

    语音信号的特征主要为基频(Fundamental Frequency)和共振峰(Formant)。共振峰反映语音信号频谱的峰值，一般取前3个峰值F1、F2和F3；基频反映音调的变化，即描述周期性的浊音的频率(F0)。初期的语音信号处理方案有F0/F2、F0/F1/F2、F0/F1/F2/F3等方法^[6，9，10]，F0决定电极电流脉冲的频率，F1、F2和F3的频点位置与电极的位置相对应，其幅度大小决定刺激脉冲的幅度。提取F0、F1、F2、F3等特征的方法主要有滤波法、自相关法、倒谱法和线性预测编码法(LPC)等，其中线性预测编码法应用较多^[9]。F0的提取可采用简化逆滤波(SIFT)法等。
, 百拇医药
    选择这些参数主要是因为它们有助于电子耳蜗植入者理解语言，而且比较符合电诱发听觉的某些特点。在此基础上，Cochlear公司发展了一种微型语音处理器(Mini Speech Processor,MSP)，其中使用的语音信号处理方法是MPEAK(Multipeak),它是F0/F1/F2/F3方法的一种扩展，在每个刺激周期内激活四个电极，两个电极表示F1和F2，另外两个电极(靠近耳蜗底部)传送2KHz以上的高频信息。用MPEAK法实现的MSP比以前的特征信号提取法性能好，特别是在有噪音的场合^[6]。

    3.2 基于滤波器组的信号处理方案

    随着电极数目的增加，基于滤波器组的人工电子耳蜗语音信号处理方案不断在发展，如最大谱峰声音处理法(Spectral Maxima Sound Processor,SMSP)、谱峰法(Spectral Peak,SPEAK)、压缩模拟(Compressed Analog,CA)方案和连续交替取样(Continuous Interleaved Sampling,CIS)方案等^{[2，3，4，6]}。
, 百拇医药
    3.2.1 SMSP法 SMSP法语音处理的原理如图2所示。SMSP法是将声音信号通过一组带通滤波器分为16个频带，并进行整流和低通滤波检测出该频带内信号的谱的包络。对每一时刻，可以得到16个频带内的语音信号的包络，然后选取其中6个最大的作为对应电极的刺激信号^[6，8]。这6个最大的包络信号作为一帧数据传输到体内，帧频约为250 Hz/S。低通滤波器的截止频率为200 Hz。SMSP方法由奥大利亚墨尔本(Melbourne)大学的研究人中提出，最初用模拟电路实现，最近已在可编程数字信号处理器上实现，并应用于他们与Nucleus公司合作生产的22电极人工电子耳蜗系统中。这种方法既减少了无线传输时的数据量，又最大限度地利用了语音信号的主要信息。

    图2 SMSP方法示意图

    Fig 2 Block diagram of the SMSP speech processing strategy
, 百拇医药
    研究人员对MPEAK、模拟SMSP、数字SMSP方法实现的电子耳蜗系统进行了感知语音性能的测试、分析和比较，使用SMSP方案使封闭元音和辅音的识别率以及开放单音节单词的理解获得了较大的提高。而且，在安静或有噪音时，开放语句的理解也有较大的提高。模拟SMSP和数字SMSP方法总的声音质量非常相似，但数字SMSP方法提高了清晰度和降低了背景噪音的影响。

    3.2.2 SPEAK法 SPEAK方法是继SMSP方法之后由澳大利亚悉尼的Cochlear Properietary公司和Melbourne的植入小组联合提出的^[2]。采用SPEAK方法的处理器将输入信号滤波为20个频带，而不是16个，选择其中最高的1～10个包络信号作为一帧刺激信号，而SMSP方法在每一帧选出的是固定的6个包络信号。SPEAK方法的帧数据传输速率为180～350/s之间，当每一帧选出的峰值少时有相对高的速率，而较多时有相对低的速率，系统有更大的灵活性。

    3.2.3 CA方案 CA方案是一种基于模拟滤波的方法，如图3所示。首先，声音信号进行自动增益控制(AGC)等预处理，然后用若干个模拟的带通滤波器，如频带为0.1～0.7 KHz，0.7～1.4 KHz，1.4～2.3 KHz和2.3～5.0 KHz，将语音信号分为四个频段的信号，分别作增益调整(Gain)，最后直接传送到四个电极(Electrode)作为其电刺激信号^[2～4]。这种方法的实现比较简单，但由于在同一时刻四个电极会同时产生刺激电流，相互之间存在着干扰，不利于聋人对语音的分辨。

, 百拇医药
    图3 CA法示意图

    Fig 3 Block diagram of the CA speech processing strategy

    3.2.4 CIS方案美国学者Wilson于1991年在Nature上的一篇文章^[3]中提出了对压缩模拟(CA)法的改进方案，简称为连续交替取样(Continuous Interleaved Sampling,CIS)方案，其原理如图4所示。

    图4 CIS方案示意图

    Fig 4 Block diagram of the CIS speech processing strategy

    声音信号(signal)先经预加重处理(Pre-emph)，以补偿语音信号的高频成分，然后作频率分段处理，从低频到高频将语音信号经n个带通滤波器(band pass filter，BPF)划分为与电极相对应的n个频带。对每一个频段内的信号，再经整流(rectifier，Rect)、低通滤波(low pass filter，LPF)等检测出其包络。为了提高动态范围，可以进行对数或平方律压缩(Compress)。在产生刺激信号时，CIS方案与SMSP和CA方法是完全不同的，CIS方案对每一频段内的信号的包络分别用对称双相脉冲序列进行调制(modulation)，且调制脉冲序列在时序上是不同步的，脉冲交替出现。最后，经脉冲序列调制后的离散序列即作为电极的电刺激信号^[2～4]。
, 百拇医药
    CIS方案通过利用交替的刺激脉冲，有效地克服了通道之间的相互作用。同时，对每一个通道而言，它还具有相对较高的刺激速率，因为相邻通道间的脉冲时延很小，可以达到较高的刺激速率，如大于800 pulses per second(p.p.s)^[3]，而用特征提取的方法来提取基频以决定刺激的速率，一般很难超过300p.p.s。所以，CIS方案能更好地跟踪语音信号的细节变化。实验表明，原来采用CA方案的聋人在改为CIS方案后，对语言的识别能力有较大的提高。

    4 讨论

    电子耳蜗的语音信号处理是正常人听觉生理功能的模拟，电诱发听觉必然与生理上的听觉存在区别，已有的信号处理方法主要利用了听觉系统的部位编码原理，但实际上听觉对语音信号的编码比较复杂，还有时间编码机制，即听神经纤维的发放率(Firing Rate)是随时间变化的。深入研究语音信号的处理方法应当与听觉生理学紧密结合，建立一种完备的听觉生理模型，这将是今后研究中值得关注的问题之一。
, 百拇医药
    采用目前语音信号处理方法(SMSP、CIS等)的电子耳蜗系统虽然达到了一定的恢复听觉的效果，但如何进一步降低成本、提高性能，这也是值得研究的问题之一。我们国家全聋人约有600万，研究针对汉语语音特点的信号处理方法，在保证性能的前提下使人工电子耳蜗为广大聋人在经济上也能承受。汉语是一种音调语言，一句话一般由若干个词语构成，每个字的读音大多数为一个辅音音节加一个元音音节构成，读音规律性比较强。通过我们初步的仿真研究表明，利用汉语的这些特点可以在通道数比较少的情况下获得很好的语音效果，进而可以减少电极数目、降低系统成本，下一步的工作将着重于进一步的实验研究和系统开发。

    5 结束语

    人工电子耳蜗为全聋人的康复带来希望，可以有效地帮助他们恢复语言交流能力，但是如何研制性能价格比合理的人工电子耳蜗，还有待进一步深入研究。目前，国外产品价格相当昂贵，每套约需2万美元，难以适应国内的经济承受能力。同时，有关人工电子耳蜗基础理论研究工作还需进一步深入，如语音信号的处理方案、耳蜗电刺激特性、耳蜗生理模型等，以不断提高人工电子耳蜗植入者对语言的识别能力。同时，电极材料、封装材料及能量无线传输和ASIC设计等与产品开发相关的技术，还需要一定的科研投入。可以预见，人工电子耳蜗的深入研究与开发将给全世界的聋人带来福音，使他们回归到有声世界。
, http://www.100md.com
    参考文献

    1 Zeng FG. Cochlear implants in China. Audiology,1995;34∶61

    2 Wilson BS, Lawson DT, Zerbi M et al. New processing strategies in cochlear implantation. The American Journal of Otology, 1995;16∶668

    3 Wilson BS, Finley CC, Lawson DT et al. Better speech recognition with cochlear implants. Nature, 1991;352∶236

    4 Wilson BS, Finley CC, Lawson DT et al. Design and evaluation of continuous interleaved sampling (CIS) processing strategy for multichannel cochlear implants. J.of Rehab. and Research and Development, 1993;30∶110
, 百拇医药
    5 Zierhofer CM, Hochmair IJ, Hochmair ES. Electronic design of a cochlear implant for multichannel high-rate pulsatile stimulation strategies. IEEE Trans on Reha Eng,1995;3∶112

    6 McDermott HJ, Vandali AE, van Hoesel RJ et al. A portable programmable digital sound processor for cochlear implant research. IEEE Trans on Reha Eng,1993;1∶94

    7 McDermott HJ. An advanced multiple channel cochlear implant. IEEE Trans on Biomed Eng,1989;36∶789
, 百拇医药
    8 McDermott HJ, McKay CM, Vandali AE. A new portable sound processor for the university of Melbourne/Nucleus Limited multielectrode cochlear implant. J Acoust Soc Am,1992;91(6)∶3367

    9 Morris LR, Barszczewski P. Algorithms, hardware and software for a digital signal processor microcomputer-based speech processor in a multielectrode cochlear implant system. IEEE Trans on Biomed Eng,1989;36∶573

    10 Blamey PJ, Dowell RC, Clark GM. Acoustic parameters measured by a formant-estimating speech processor for a multiple-channel cochlear implant.J Acoust Soc Am,1987;82(1)∶38
, 百拇医药
    11 White RL. System design of a cochlear implant. IEEE engineering in medicine and biology,1987;82∶42

    12 Loeb GE, Byers CL, Robscher SJ et al. Design and fabrication of experimental cochlear prosthesis. Med, & Biol Eng & Comput,1983;21∶241

    13 Jolly CN, Spelman FA, Clopton BM. Quadrupolar stimulation for cochlear prostheses: modeling and experimental data. IEEE Trans on Biomed Eng,1996;43∶857

    14 Agnew WF et al. Neural Protheses: Fundamental Studies. Prentice Hall Press,1990;253

    15 蓝宁，肖志雄，聂开宝等.功能性电刺激的原理，设计及应用(-).中国康复理论与实践，1997；3(4)∶152

    16 曹克利，王直中，王开羡.16通道人工耳蜗植入装置的原理和研制.北京生物医学工程，1994；13(3)∶140

    (收稿：1998-04-01), 百拇医药

百拇医药网 http://www.100md.com/html/analecta/2003/09/01/89/406.htm