Vakgroep Linguïstiek, Trans 10, 3512 JK Utrecht, telefoon 030-2536265, fax 030-2536000

DE CON-CA-TE-NA-TIE VERBETERD

Mieke van Wijck

eindwerkstuk cursus TEKST-NAAR-SPRAAK-SYSTEMEN 1996-97

INLEIDING

Een vorm van spraaksynthese is het achter elkaar plaatsen van segmenten uit natuurlijke spraak, concatenatie genoemd. Een voordeel van deze methode is, dat de verkregen spraakkwaliteit hoog is, bijvoorbeeld qua timbre. Hoe hoog de kwaliteit van het resultaat is, hangt voor een groot deel af van de grootte van de geconcateneerde segmenten. Is bijvoorbeeld het woord als eenheid gekozen, dan zal met name de zinsprosodie van slechte kwaliteit zijn (onnatuurlijk zijn).

Ik zal mij hier beperken tot het concateneren van syllaben tot woorden. Er zullen naar verwachting een aantal factoren zijn die de kwaliteit van het resultaat negatief beïnvloeden. Ten eerste zal het verschijnsel coarticulatie het segmenteren bemoeilijken. Coarticulatie houdt in dat twee (meestal naastliggende) fonemen elkaar beïnvloeden. Als deze fonemen dus gescheiden worden, zal in het resultaat soms nog wat te horen zijn van het foneem dat er oorspronkelijk aan grensde. Daarom zal met syllaben als eenheid relatief minder hinder ondervonden worden van coarticulatie dan met fonemen als eenheid. De coarticulatie tussen de klinker en medeklinker(s) van een syllabe is namelijk al automatisch meegenomen. Het is dan alleen nog hinderlijk dat op de syllabegrenzen in het nieuwe woord een incorrecte coarticulatie of juist helemaal geen coarticulatie aanwezig is.

Een tweede probleem dat zich voor zal kunnen doen is een incorrecte woordklemtoon van het geconcateneerde woord. De belangrijkste parameters die hiervoor verantwoordelijk zijn, zijn de duur van het foneem (met name van de klinker) en de toonhoogtebeweging. De duur van het foneem hangt af van het feit of het foneem oorspronkelijk in een beklemtoonde of in een onbeklemtoonde lettergreep stond. In een beklemtoonde lettergreep is een foneem namelijk langer dan als ditzelfde foneem in een onbeklemtoonde lettergreep staat. Het beste resultaat zal dus verkregen worden als de lettergreep in het nieuwe woord de klemtoon krijgt die hij ook had in het woord waar de syllabe uit gesegmenteerd is (hoofdklemtoon, nevenklemtoon of geen klemtoon). Een kleinere rol speelt het feit of een lettergreep / foneem aan het eind van het woord stond of niet. In finale positie heeft het een langere duur dan in niet-finale positie. Wat betreft de parameter 'toonhoogtebeweging': een relatief vrij snelle daling of stijging van de toonhoogte is klemtoonverlenend.

Ik heb een kleine test uitgevoerd om te onderzoeken in hoeverre het geconcateneerde woord natuurlijker kan gaan klinken door het copiëren of verwijderen van afzonderlijke perioden in de golfvorm en door het manipuleren van de toonhoogte.

TEST

Het woord panorama werd geconcateneerd met de onderstreepte lettergrepen uit de woorden opa, noordelijk, flora en maatje. Deze waren als één-woord-uitingen voorgelezen door een volwassen man. De syllaben hadden een andere klemtoon dan ze in het nieuwe woord moesten hebben. Dit is bewust gedaan, omdat zo het effect van het variëren van de parameters (uit de inleiding) het beste waar te nemen is. Met behulp van het computerprogramma GIPOS werden de segmentatie, duurverkorting en -verlenging en de concatenatie uitgevoerd. Het snijden in de golfvorm gebeurde op de positieve nuldoorgangen.

Eerst werd een versie gemaakt waarin nog niets aan de duur van de fonemen en aan de toonhoogte veranderd was. Het gedeelte van een foneem waarin nog heel duidelijk iets van het naastliggende foneem te horen was, werd erafgehaald en niet meegerekend met de (oorspronkelijke) duur van het foneem. Er kon natuurlijk niet teveel afgehaald worden, want dan zou het foneem te kort worden.
[luister naar eerste versie]

Met de eerste versie werd een tweede versie gemaakt, namelijk een waarin de duur van (alleen) de klinkers was aangepast. In tabel I is schematisch weergegeven wat er aan de oorspronkelijke duur van de klinkers is veranderd.

TABEL I: Duur van de klinkers: oorspronkelijk en na het copiëren 
of verwijderen van afzonderlijke perioden van de golfvorm.

woord		klinker	duur-voor	duur-na
----------------------------------------------
opa		/a/	172 ms		131 ms
noordelijk	/o/	152 ms		138 ms
flora		/a/	150 ms		170 ms
maatje		/a/	168 ms		168 ms
----------------------------------------------
Hoe de klinkerduur veranderd moest worden, werd bepaald aan de hand van de gegevens over de oude en nieuwe positie van de syllabe in het woord en over de oorspronkelijke en de bedoelde klemtoon. Na een optelsom van deze gegevens, werd besloten tot verkorten, verlengen of gelijkhouden van de klinkerduur. Zo werd de /a/ van opa iets verkort, omdat een niet-finale /a/ korter is dan een finale /a/ en omdat een onbeklemtoonde /a/ korter is dan een beklemtoonde /a/. De /o/ van noordelijk werd wat verkort, omdat hij van een beklemtoonde positie naar een onbeklemtoonde positie ging (zijn oude en nieuwe positie waren beide niet-finaal). De /a/ van flora werd wat verlengd, omdat hij van een onbeklemtoonde naar een beklemtoonde positie ging (zijn oude en nieuwe positie waren beide finaal). De /a/ van maatje werd gelaten zoals hij was, omdat hij van beklemtoond naar onbeklemtoond ging en van niet-finaal naar wel-finaal. In totaal was de tweede versie van panorama 35 ms korter dan de eerste versie.
[luister naar tweede versie]

Vervolgens werd met de eerste versie een derde versie gemaakt waarin de toonhoogte gemanipu- leerd was. Hierbij werd uitgegaan van een toonhoogte die correct was voor een realisatie van het woord in isolatie, dus als een één-woord-uiting. De manipulatie werd gedaan met behulp van PSOLA. PSOLA is een analyse-en-synthese systeem dat als voordelen heeft, dat het spraaksignaal gemanipuleerd kan worden zonder aan kwaliteit te verliezen. In bijlage 1 is het editvenster te zien van PSOLA. Hierin is de oorspronkelijke toonhoogtecontour met grijs aangegeven en de nieuwe toonhoogtecontour met zwart.
[luister naar derde versie]

Tot slot werd (met de tweede versie) een vierde versie gemaakt waarin zowel de klinkerduur als de toonhoogte aangepast was. De toonhoogtecontour van deze versie was vrijwel gelijk aan die van versie 3. In bijlage 2 is de oorspronkelijke toonhoogtecontour te zien en in bijlage 3 de nieuwe (om technische redenen staan deze twee niet samen in een figuur).
[luister naar vierde versie]

RESULTATEN EN DISCUSSIE

Zoals verwacht heeft coarticulatie het segmenteren enigszins bemoeilijkt. Bij /pa/ had ik geen last van coarticulatie. De /p/ begint immers met een stilte en op de /a/ volgde ook stilte. Hier is coarticulatie dus juist afwezig. Bij het beluisteren van het eindresultaat is mij dit echter niet als storende factor opgevallen. Misschien heb je voor een goede vergelijking een versie van panorama nodig die in één keer uitgesproken is (eventueel met gemanipuleerde toonhoogte). Aan /no/ ging oorspronkelijk een stilte vooraf, dus daar had ik geen last van coarticulatie. De /o/ was wel enigszins anders gevormd dan hij waarschijnlijk in een normaal uitgesproken panorama zou zijn. In /ra/ hoorde je niets meer van de oorspronkelijk voorafgaande /o/ en op de /a/ volgde stilte dus dat gaf ook geen problemen. Bij /ma/ was er met de /m/ niets aan de hand (had oorspronkelijk een stilte vooraf), maar in de /a/ bleef je nog steeds wat horen van de oorspronkelijk volgende /t/. Dit kon je goed horen als je het resultaat vergeleek met bijvoorbeeld de /a/ van flora. Maar alles bij elkaar was er vrij weinig te horen van een verkeerde coarticulatie, zoals gezegd was er misschien juist sprake van te weinig coarticulatie.

Na het maken van de eerste versie bleek dat de incorrecte woordklemtoon de natuurlijkheid negatief beïnvloedde, zoals verwacht. In de inleiding kwam reeds naar voren dat met name de duur van het foneem en de toonhoogtebeweging hiervoor verantwoordelijk zijn. Door deze op de goede manier te veranderen, wat in de test gebeurd is, zou de natuurlijkheid verbeterd kunnen worden.

Aanpassing van alleen de klinkerduur leverde enige verbetering op (vergelijk versie 1 en 2 of 3 en 4; bij 3 en 4 is het het duidelijkst, want daar stoort de onnatuurlijke F0 niet meer). Versie 2 en 4 gaven ook de indruk dat ze in een hoger tempo uitgesproken waren. Waarschijnlijk komt dit doordat de totale duur van het woord minder groot geworden was.

Aanpassing van alleen de toonhoogte had een grote toename in natuurlijkheid tot gevolg (vergelijk versie 1 en 3 of 2 en 4). Vooraf aan de toonhoogtemanipulatie was het F0-verloop niet volgens een van de toegestane F0-verlopen van een één-woord-uiting in het Nederlands. Het is dan vanzelfsprekend dat het woord natuurlijker gaat klinken als het F0-verloop gelijk wordt aan een van die opties.

Naar mijn mening had de toonhoogtemanipulatie een grotere verbetering tot gevolg dan de duuraanpassing (vergelijk versie 2 en 3). Dit komt doordat een ongewone, onnatuurlijke toonhoogte waarschijnlijk storender is voor de luisteraar dan een ongewone klinkerduur. Hierbij moet wel opgemerkt worden, dat in deze test de oorspronkelijke toonhoogte naar mijn idee veel ongewoner was dan de oorspronkelijke duur van de klinkers. Als de klinkers in de eerste versie extreem kort en/of extreem lang waren geweest, was er misschien ongeveer een evengrote verbetering opgetreden. Dit zou in een vervolgtest onderzocht kunnen worden.

De combinatie van beide aanpassingen had de grootste toename in natuurlijkheid tot gevolg.

CONCLUSIES

Het met syllaben geconcateneerde woord panorama is natuurlijker gaan klinken na toonhoogte-manipulatie en klinkerduuraanpassing. Toonhoogtemanipulatie had het meeste effect. Wellicht is voor de luisteraar een onnatuurlijke toonhoogte storender dan en ongewone klinkerduur. Een andere mogelijke verklaring hiervoor is, dat in deze test de toonhoogte oorspronkelijk onnatuurlijker was dan de klinkerduur.

LIJST MET AUDIOFILES

versie 1 zonder duuraanpassing, zonder F0-manipulatie
versie 2 met duuraanpassing, zonder F0-manipulatie
versie 3 zonder duuraanpassing, met F0-manipulatie
versie 4 met duuraanpassing, met F0-manipulatie

Ik heb telkens zelf op het gehoor de natuurlijkheid beoordeeld.

aanvang document
Universiteit Utrecht Faculteit der Letteren Uw reactie

Laatst gewijzigd: 20 juni 1997 (MvW, HQ) / Hugo Quené