opleiding Fonetiek, Trans 10, 3512 JK Utrecht, telefoon 030-2536265, fax 030-2536000

Synthese van stem-pathologieën

Kim Koppen

eindwerkstuk cursus TEKST-NAAR-SPRAAK-SYSTEMEN 1998-99

Stemkwaliteit laat bij mensen soms veel te wensen over, wat de verstaanbaarheid negatief beïnvloedt. In principe is het uiteraard gewenst om een spraaksynthese-stem een zo helder en verstaanbaar mogelijk stemgeluid mee te geven. De Klatt-synthesizer (Klatt, 1980) is echter bij uitstek geschikt om een onderzoekje te doen naar de betrokken stemparameters bij stempathologieën. Deze formantsynthesizer heeft als invoer een parameterfile, gegenereerd door een programma waarin de mogelijkheid bestaat de standaard syntheseparameters aan te passen. Er kunnen zes formantsporen met bijbehorende bandbreedten gedefinieerd worden. Daarnaast kunnen verschillende brongeluiden gekozen worden, een periodieke en een aantal ruisbronnen, om fricatie, aspiratie en turbulentie op te wekken, ieder met een eigen amplitude. De brongeluiden kunnen ook gecombineerd worden, wat een eerste vereiste is om stemafwijkingen te kunnen synthetiseren. Andere parameters zijn de spectrale helling en een nasaal pole-zero formantpaar.

Stemafwijkingen zijn onder te verdelen in functionele dysfonieën, secundair organische en primair organische pathologieën (Damsté, 1989). Uit een chronische functionele dysfonie kan een secundair organische pathologie ontstaan. De organische verandering is een aanpassing aan het verkeerde stemgebruik en is in het beginstadium soms nog reversibel. Primair organische afwijkingen zijn bijvoorbeeld het gevolg van aangeboren of endocriene afwijkingen, hersenletsel, trauma van de larynx, infectie of een chirurgische ingreep. De verschillende stempathologieën zijn uitsluitend op gehoor soms moeilijk van elkaar te onderscheiden. Een stroboscoop en keelspiegel zijn daarom van belang om een juiste differentiaaldiagnose te kunnen stellen (Boone and McFarlane, 1988). Op grond hiervan is besloten een aantal afwijkingen te synthetiseren, die voornamelijk op gehoor te benoemen zijn, namelijk:

functionele dysfonieën

Hypokinesie
De stem klinkt hees, een draagkrachtig geluid is niet mogelijk. De stembanden sluiten onvolledig, waardoor lucht ontsnapt en meestal is er sprake van een oppervlakkige ademhaling. Door de vaak algehele hypotonie in het mond-keelgebied is er onvoldoende spanning in het velum, waardoor hypernasaliteit optreedt.
Hyperkinesie
De stem klinkt schor en luid, omdat de stembanden krachtig samengeperst worden. Soms is er zelfs constrictie van de ventriculaire (valse) stembanden, zodat een diplofone stemgeving ontstaat. Er is een hoge subglottale luchtdruk en een thoracale ademhaling. Als gevolg openen de stembanden zeer abrupt en ontsnapt er veel lucht in de openingsfase van de stembandtrilling.
Afonie
Bij de psychogene afonie kan alleen nog gefluisterd worden. Afonie kan echter ook een primair organische oorzaak hebben, zoals stembandverlamming of tumorvorming.
Geknepenheid
De spieren van het aanzetstuk zijn te gespannen, zodat de tong ver naar achteren ligt en de pharynx vernauwd wordt. Het klinkt alsof degene met een aardappel in zijn mond spreekt.

Secundair organische pathologieën

Oedeem
Dit is vochtophoping in de ruimte van Reinke, de weefselspleet tussen de stemplooi en het epitheel. Het komt meestal symmetrisch aan beide zijden voor. In de meeste gevallen is roken een belangrijke factor. Ook een chronische overbelasting of acute laryngitis kan tot stembandoedeem leiden. De stem klinkt schor en door de extra massa van de stembanden ligt de toonhoogte vaak op 80 Hz of lager, wat een grof, korrelig stemgeluid geeft.
Poliep
Dit is een met vocht gevulde uitstulping op meestal één stemband, die na verloop van tijd uit bindweefsel gaat bestaan, en is het gevolg van hyperkinesie. De normale stemplooi heeft een normale trillingsfrequentie, terwijl trillingfrequentie van de aangedane stemplooi gedempt wordt door de poliep.

Met nadruk wil ik stellen dat het bovenstaande geen volledig overzicht is van alle stempathologieën.

METHODE

Als basis om de afwijkingen te modelleren is uitgegaan van een aangehouden /a/, op een toonhoogte van 125 Hz. Deze frequentie kan aangehouden worden voor de gemiddelde mannenstem (Boone and McFarlane, 1988). De frequenties van de eerste, tweede en derde formant liggen respectievelijk op 850, 1300 en 2400 Hz (Nooteboom & Cohen, 1988). Voor de synthese is gebruik gemaakt van de cascade-tak van de Klatt-synthesizer. Dit betekent dat er geen afzonderlijke amplitudes voor de formanten ingesteld hoeven te worden, omdat de volgende formant automatisch op de flank van de vorige formant komt te liggen en dus een lagere amplitude heeft. Bij klinkers is op deze manier het resultaat goed te benaderen, omdat de geluidsbron, de stembandtrilling, aan het einde van het mond-keelkanaal ligt.

De perceptieve en fysiologische verschijnselen, die een afwijking kenmerken, dienen omgezet te worden in akoestische parameters voor de Klatt-synthesizer. Voor de stempathologieën, waarbij de stembanden niet goed sluiten tijdens foneren en er dus lucht ontsnapt, is een aspiratieruis toegevoegd aan het periodieke brongeluid. Dit is van toepassing bij hypokinesie, stembandoedeem en polyposis laryngis (stembandpoliep). Bij een afonie bestaat het brongeluid uitsluitend uit een aspiratieruis, omdat de stembanden geheel niet meer trillen. De grondfrequentie is bij deze afwijking daarom op 0 Hz ingesteld. De nasale resonantiefrequenties, die ontstaan als gevolg van hypernasaliteit, konden ingesteld worden met de parameters FNZ en FNP, de frequenties van de nasale pole en zero. Deze waarden zijn bepaald op de wijze, die in Klatt (1980) beschreven staat. De frequentie van de eerste formant is opgehoogd met ongeveer 100 Hz en de frequentie van de nasale zero ligt op het gemiddelde van de nieuwe eerste formantwaarde en 250 Hz (de waarde van FNP). Op deze manier wordt de amplitude van de eerste formant gereduceerd, wat perceptief de belangrijkste cue is voor nasalisering.

Onvolledige stembandsluiting door oedeem of een poliep leidt tot pogingen om dit te compenseren. Hierdoor komt het aanzetstuk onder veel spanning te staan. Een gespannen stemgeving beïnvloedt de spectrale helling. Ook hier heeft de Klatt-synthesizer een parameter (TL) voor. Deze waarde is de spectrale energie in dB bij een frequentie van 3 kHz. Hoe vlakker de helling, dus bij een lage TL-waarde, hoe meer gespannen het stemgeluid klinkt. Op hyperkinesie en geknepenheid is hetzelfde van toepassing. Dat de waarden voor TL per afwijking anders zijn, heeft te maken met de vermoedelijke interactie tussen verschillende parameters. Het ver naar achteren liggen van de tong bij de geknepen fonatie, heeft geleid tot het verhogen van de tweede formant.

Zowel bij oedeem als polyposis laryngis treedt er nog een verschijnsel op. De toonhoogte van één (polyposis laryngis) of beide (oedeem) wordt lager door de extra massa op de stemband. Dit leidt in geval van polyposis laryngis tot diplofonie en in geval van oedeem tot een totaal lagere F0. Helaas was het niet mogelijk twee toonhoogtes te laten berekenen door de Klatt-synthesizer, zodat bij de poliep voor een normale toonhoogte is gekozen. Tabel I geeft een overzicht van hetgeen hierboven geformuleerd is.
Tabel I. De stempathologieën en de aangepaste syntheseparameters.
Referentie /a/ F0= 125 Hz, F1= 850 Hz, F2= 1300 Hz, F3= 2400 Hz, TL= 24 dB
Hypokinesie & nasaliteit F1= 1000 Hz, FNZ= 528 Hz, FNP= 250 Hz, ASP= 30 dB
Hyperkinesie (schorheid) AT= 62 dB, TL= 18 dB
Afonie F0= 0 Hz, ASP= 30 dB
Geknepenheid F1= 950 Hz, F2= 1600 Hz, TL= 9 dB
Oedeem F0= 80 Hz, ASP= 50 Hz, TL= 3 dB
Poliep & diplofonie F0= 125 Hz, ASP= 50 Hz, TL= 3 dB
ASP = amplitude van aspiratie (0-70dB), AT = amplitude van turbulentie (0-80dB), FNZ = frequentie van nasale zero en FNP = frequentie van nasale pole (248-528Hz), TL = spectrale helling (0-24dB op 3 kHz)

Per stempathologie is een bestaand programma voor de /a/ aangepast door parameters toe te voegen en de waarden uit tabel I toe te kennen. De uitvoering van de programma's heeft geleid tot de gewenste geluidsbestanden, gegenereerd door de Klatt-synthesizer.

RESULTATEN & DISCUSSIE

De resulterende geluidsbestanden zijn op pathologie van elkaar te onderscheiden, al is het niet overtuigend. De afwijkingen zijn fors, wat grotendeels te wijten is aan een niet heldere basis /a/. Logopedie zou bij de Klatt-patiënt een goede zaak zijn.

De hyper- en hypokinesie zijn goed te differentiëren, met name doordat de parameter AT een wat ruwere klank geeft dan de parameter ASP. Ook de geknepen /a/ is duidelijk te herkennen, door aanpassing van de tweede formant. In alle gevallen doet de spectrale hellingsfactor zijn werk goed: hoe vlakker hoe meer gespannen de stemgeving. Vermoedelijk is in het geval van een stempoliep diplofonie onderscheidend. Zonder dit verschijnsel lijkt de afwijking namelijk veel op oedeem. In deze synthetische versies is het verschil te horen doordat bij oedeem gekozen is voor een afwijkende toonhoogte en bij de stempoliep niet (in verband met de beperking van de synthesizer). De hypokinetische, genasaliseerde /a/ verliest veel van zijn klinkeridentiteit. Dit is voornamelijk te beïnvloeden door de ligging van de nasale zero, die de amplitude van de eerste formant moet verlagen. Wellicht zou een stoornis beter te herkennen zijn geweest als de bandbreedte van de formanten ook aangepast zou zijn.

CONCLUSIE

Hoewel bepaalde kenmerken van een stempathologie te herkennen zijn, is het moeilijk om deze te modelleren. Echter, om juist te kunnen oordelen over de resultaten, zou een vergelijking gemaakt moeten worden met dezelfde stempathologieën bij mensen. Er spelen veel factoren een rol bij afwijkende stemgeving en een synthesizer is nu eenmaal ontwikkeld om spraak van goede kwaliteit te maken.

Literatuur

Bijlagen

Hieronder staan de scripts die gebruikt zijn om de bovenvermelde synthetische klinkers te maken: