Vakgroep Linguïstiek, Trans 10, 3512 JK Utrecht, telefoon 030-2536265, fax 030-2536000

MBROLA EN AMBIGUE ZINNEN

Meinou van Dijk

eindwerkstuk cursus TEKST-NAAR-SPRAAK-SYSTEMEN 1996-97

INLEIDING

Ik heb voor dit werkstuk een opdracht uitgevoerd met het spraaksynthese systeem MBROLA. Dit is een spraaksynthese-systeem dat werkt met een set difonen.

In MBROLA heb ik een ambigue zin ingevoerd. Vervolgens heb ik geprobeerd deze zin niet-ambigu te maken door middel van of de duur aanpassen of de toonhoogtecontour aanpassen. Ook heb ik een versie gemaakt waarbij zowel de toonhoogtecontour als de duur zijn aangepast. Ik heb hierbij gebruik gemaakt van zowel duurregels als van intonatieregels, welke ik uit de literatuur heb gehaald. Ook heb ik gebruik gemaakt van eerdere bevindingen over duur uit het practicum en mijn mening tijdens het maken van de zinnen.

Ik verwacht dat zal blijken dat de zin het best niet-amigu is te maken met het leggen van een toonhoogtecontour en duuraanpassingen, beter dan met het leggen van alleen een toonhoogtecontour. Met het aanpassen van de duur van sommige segmenten denk ik het minst goede resultaat te bereiken. Ik baseer die verwachting op een aantal bevindingen die beschreven staan in Nooteboom en Cohen (1984). Zij geven een aantal bevindingen die experimenten met kunstmatige spraak hebben opgeleverd. Een van de bevindingen is dat een correcte toonhoogtecontour belangrijker is om een natuurlijk klinkend resultaat te verkrijgen dan een correcte temporele organisatie. Daarbij komt nog dat een accentverlenende toonhoogtebeweging noodzakelijk is, maar verlenging van spraakklanken niet. De versies waarbij zowel de toonhoogtecontour als de duur is aangepast, zal het beste klinken. Gezien het feit dat je zowel met een toonhoogtecontour als met de duur een zin een bepaalde uitspraak kan meegeven, zal een combinatie van deze twee mogelijkheden het beste resultaat geeft. Je hebt dan zowel de noodzakelijke toonhoogtecontour als de niet-noodzakelijke duuraanpassingen.

Voor ik ga beschrijven hoe ik te werk ben gegaan, zal ik eerst de duurregels die ik gebruikt heb geven en de Nederlandse intonatiepatronen.

DUURREGELS

Voor het bepalen van de duur van de verschillende fonemen heb ik gebruik gemaakt van een aantal aanwijzingen over de duur van klanken door Nooteboom en Cohen (1984). Ik heb me niet strikt gehouden aan hun aanwijzingen, ik heb het alleen als hulp gebruikt. Hieronder geef ik een de duurregels waar ik acht op heb geslagen:

INTONATIEPATRONEN

Voor het leggen van de toonhoogtecontour heb ik gebruik gemaakt van de bestaande patronen die voor het Nederlands gelden. In het Nederlands hebben we vijf stijgingen en vijf dalingen die onder bepaalde voorwaarden met elkaar gecombineerd kunnen worden. Ik heb de beschrijving van deze patronen van Collier en '´t Hart (1981) en van Nooteboom en Cohen (1984). Ik zal van elk van de stijgingen en dalingen een korte beschrijving geven. Een snelle stijging of daling duurt ongeveer 100ms. Deze stijgingen en dalingen komen in het Nederlands voor in twee soorten intonatiepatronen: de punthoed en de platte hoed. Zij hebben hun naam te danken aan hun vorm. De punthoed is een stijging met een onmiddellijke daling en de platte hoed is een stijging met een tussenstuk voor de daling begint. Ze staan beide weergegeven in Figuur 1. Figuur 1: (a) de punthoed, (b) de platte hoed

METHODE

Ik heb een geschikte ambigue zin opgezocht. Een voorwaarde die ik gesteld heb hierbij is, dat de ambiguďteit duidelijk te herkennen was. De zin moest dus niet vergezocht zijn in een van de twee uitleggen. Ik heb gekozen voor de zin:

De man betaalde voor de bank in het park.”

De beide uitleggen zijn duidelijk te herkennen. Het is mogelijk de zin te lezen waarbij de man betaalt om de bank in het park bijvoorbeeld te mogen bezetten. In het andere geval staat de man voor de bank op het moment dat hij betaalt.

In MBROLA heb ik de zin ingevoerd met de symbolen voor de difoonset voor het Nederlands. Deze is bijgevoegd in de practicumhandleiding die we tijdens college hebben gebruikt. De weergave in de allofoonsymbolen is als volgt:

_d@ mAn b@taLd@ vO:R d@ bANk In @t pARk_

De spaties tussen de woorden heb ik er tussengeplaatst voor de duidelijkheid. Ik zal mijn keuze van een aantal opvallende symbolen nader verklaren. Het symool O: staat voor een vocaal voor een /r/. Een zogenaamde gekleurde vocaal. Het symbool N staat voor een velaire nasaal. Een /n/ voor een /k/ wordt in het Nederlands niet als de alveolaire /n/ uitgesproken, maar de articulatieplaats ligt meer achterin de mond. Het symbool @ staat voor de schwa.

Ik heb de zin ingevoerd en als eerste de duren bepaald van elk symbool. Ik heb er een declinatielijn van 130Hz naar 70Hz overgelegd. Vervolgens heb ik in GIPOS de toonhoogtes bepaald van de woord(groep)en waar ik in de ambigue zin contouren over wilde leggen. Dit waren de woorden ‘man’, bank in ´t, en park’. Vanuit deze toonhoogtegegevens heb ik over elk van deze woord(groep)en een, naar mijn idee, geschikte contour gelegd. Voor de duur van de snelle stijging heb ik 100ms aangehouden, de duur die Collier en ´t Hart (1981) aangeven. Voor de mate van de stijging ben ik uitgegaan van 15Hz en heb deze vervolgens op gehoor aangepast. De zin die ik hiermee verkreeg, duidt ik verder aan met de term basiszin. Dit is de zin waar ik voor het niet-ambigue zinnen maken vanuit ben gegaan.

Leggen toonhoogtecontour
In GIPOS heb ik aan de hand van deze basiszin gekeken wat de toonhoogte was van betaalde’ en ‘voor. Ik heb uitgaande van de ambigue zin een zin gemaakt met op betaalde een contour en een zin met op voor’ een contour. Door over ‘ ‘betaalde’ een contour te leggen hoopte ik een zin te krijgen met de betekenis dat de man betaalde om gebruik te mogen maken van een bank in het park. Door over ‘voor’ een contour te leggen wilde ik een zin krijgen met de betekenis waarbij de man voor de bank staat als hij betaalt.
Duuraanpassing
Vanuit de basiszin heb ik de duur aangepast van bepaalde allofonen. Ook hierbij heb ik me beperkt tot de twee woorden waarin de ambiguďteit zit, nl. betaalde’ en ‘voor. In de eerste betekenis heb ik betaalde verlengd en voor verkort. In de tweede betekenis heb ik betaalde juist verkort en voor verlengd. Het woord dat de nadruk moest krijgen, accent, werd dus verlengd en het woord waar het niet om ging werd verkort. Bij ‘betaalde’ heb ik alleen de syllabe ‘ -taal- aangepast in duur en dan vooral de klinker. In voor heb ik het hele woord aangepast, maar weer met de nadruk op de klinker.
Leggen toonhoogtecontour en aanpassen duur
Bij het aanpassen van zowel de contour als de duur ben ik niet uitgegaan van de basiszin, zoals in de andere twee gevallen. Hier ben ik uitgegaan van de zinnen met aangepaste duur. Ik heb dus twee niet-ambigue zinnen nog duidelijker niet-ambigu proberen te maken door er de juiste toonhoogtecontour over te leggen. Ik heb hierbij gebruik gemaakt van dezelfde patronen als bij het eerder leggen van de contouren. De stijgingen en dalingen heb ik nog steeds 100ms laten duren, ookal waren de syllaben waar de contour over kwam langer van duur dan in het vorige geval waarin alleen een contour werd gelegd.
Controle
Telkens als ik klaar was met een van de drie onderdelen, heb ik de zinnen in GIPOS naast elkaar gelegd en bekeken. Ik heb vergeleken welke zinnen beter klonken en welke slechter. Dit heb ik met de volgende zinnen onderling gedaan: De zinnen met alleen de toonhoogtecontouren, De zinnen met alleen de duuraanpassingen, De zinnen met beide aanpassingen, In de ene betekenis heb ik de drie zinnen vergeleken en in de andere betekenis ook. Vanaf nu zal ik de zin in de betekenis dat de man betaalt om gebruik te mogen maken van de bank, aanduiden met betekenis 1. De zin met de betekenis dat de man voor de bank staat op het moment dat hij betaalt, zal ik verder betekenis 2’ noemen.

RESULTATEN

Wat zijn de duren van de allofonen in de basiszin? En hoe heb ik de declinatielijn aangebracht? [Deze waarden staan in het bestand ambigu.pho]. Het eerste getal is de duur in ms, Het tweede getal het percentage van het segment waarop de toonhoogte, het derde getal, bereikt wordt. Het vierde getal is weer een percentage, het vijfde weer een toonhoogte in Hz. De allofonen staan vooraan weergegeven. Een streep betekent een stilte. Hieronder staan de zinnen met de toonhoogtecontouren zoals ik die heb gelegd over de zinnen.
*De basiszin: DE MAN BETAALDE VOOR DE BANK IN HET PARK
         1&A          2  D  D 2&C
*Betekenis 1: DE MAN BETAALDE VOOR DE BANK IN HET PARK
         1&A  1&A      2  D  D 2&C
*Betekenis 2: DE MAN BETAALDE VOOR DE BANK IN HET PARK
         1&A      1&A   2  D  D 2&C
De duuraanpassingen zaten alleen in -taal-’van ‘betaalde en in voor. Ik geef van elk van deze syllabe de oude duren, de nieuwe duren in betekenis 1 en de nieuwe duren in betekenis twee in Tabel II.
	Oud	Nieuw1	Nieuw2
t	 70	 70	 60
a	130	160	110
L	 40	 60	 40
v	 80	 50	 80
O:	100	 60	140
R	 40	 30	 60

Tabel II: De duren weergegeven van de allofonen waarbij de duur gewijzigd is.
De waarden die ik verkreeg na het aanpassen van de duren en de toonhoogtecontouren staan weergegeven in Tabel III. De stijgingen en dalingen zijn hetzelfde als bij het alleen de contouren veranderen. Het percentage van de allofoon waarop dit gebeurt echter niet. Het eerste getal is het percentage, het tweede getal de bereikte toonhoogte, het derde een percentage, het vierde wederom de bereikte toonhoogte op dat percentage. Cellen die leeg zijn, houdt in dat hier geen aanpassing is gedaan.
		Betekenis 1				Betekenis 2
	-----------------------------		-------------------------------
	Contour		Contour			Contour		Contour
			+Duur					+Duur
t	10 115		30 115
a	20 145 50 145	35 145 65 145
L	100 110		80 110
v						20 106		50 106
O:						40 145		30 145 100 104
R						100 104		-

Tabel III: De waarden die ik heb ingevoerd voor 
de verandering van de contour en 
de verandering van de contour met de duren.
Wat klinkt het beste?
De toonhoogtecontour alleen aanpassen gaf het beste resultaat [betekenis1, betekenis2]. Daarna gaf het aanpassen van de toonhoogtecontour en de duren het beste resultaat [betekenis1, betekenis2]. Het slechtste resultaat gaf een aanpassing van de duren [betekenis1, betekenis2]. Dit was het geval voor zowel de zin in betekenis 1 als in betekenis 2. Het niet-ambigu maken voor de zin met betekenis 2 ging beter dan voor de zin met betekenis 1.

CONCLUSIE EN DISCUSSIE

Mijn verwachting was dat de zin met zowel het aanpassen van de toonhoogtecontour als de duren het beste resultaat zou geven, daarna de versie met alleen een toonhoogtecontour. Van de versie met alleen duuraanpassingen verwachtte ik het minst goede resultaat.

Het resultaat dat uit dit onderzoekje kwam, was echter anders. Het beste resultaat werd verkregen met alleen het aanpassen van de toonhoogtecontour. Daarna kwam pas de versie waarbij zowel de toonhoogtecontour als de duur aangepast was. Wat wel overeen kwam met mijn verwachtingen, was dat de versie met alleen duuraanpassingen het minst goede resultaat gaf.

Opvallend vond ik dat de zinnen in betekenis 2 beter waren dan in betekenis 1, naar mijn mening. Dit verschil had ik niet verwacht. Juist omdat allebei de uitleggen van de ambigue zin logisch waren, leek mij dat er geen verschil in resultaat zou zijn tussen de twee zinnen.

Wat is nu de reden dat de versie met alleen het leggen van een toonhoogtecontour het beste resultaat geeft en niet het aanpassen van de toonhoogtecontour en de duur? Deze vraag vind ik moeilijk te beantwoorden. Het zou aan een aantal factoren kunnen liggen. Ik heb alleen de duren verlengd en verkort bij de twee woorden waarmee ik dacht de zin niet-ambigu te kunnen maken, ‘ betaalde’ en ‘voor. Het kan heel goed zijn dat dit een te eenvoudige gedachte was en dat er in een zin veel meer gebeurt met de duren. Ook kan het zijn dat de duuraanpassingen en de aanpassing van de toonhoogtecontour geen optelsom is. Misschien had ik dus een heel andere contour moeten leggen over de zin met alleen contouraanpassingen dan over de zin met beide aanpassingen, of juist heel andere duren moeten gebruiken.

Waarom is de versie met de betekenis dat de man voor de bank staat beter dan de versie waarin de man betaalt om gebruik te mogen maken van de bank? Ik denk dat dit verschil komt door de basiscontour die ik over de zin heb gelegd. Er zit een accentverlenende stijging en daling over het woord man. Betaalde zit heel dicht bij dit geaccentueerde woord, terwijl voor er een stuk verder vanaf ligt. Het accent dat ik op betaalde heb gelegd kan een beetje onderdrukt zijn door het accent op man, terwijl dit voor het accent op voor’ niet geldt. Hierdoor komt de zin met de betekenis dat de man voor de bank staat beter uit. Oplossing hiervoor zou misschien zijn om een minder nadrukkelijk accent op man te leggen.

Een punt dat ik ook nog wil noemen is dat de kwaliteit van MBROLA me toch wat tegenviel. Tijdens [het] practicum vond ik het heel natuurlijk klinken, maar nu ik er hele zinnen mee gemaakt heb, vond ik toch dat je duidelijk kunt horen dat het synthetische spraak is. Dit vond ik vooral naar voren komen in de plofklanken. Ik vond het een moeilijk om een goed duidelijke ruisstoot te horen. Vaak klonk een plofklank een beetje alsof de spreker met een dubbele tong sprak. Wat mij ook opviel was dat het verkorten van de klank [a] niet goed ging. Bij het aanpassen van de duur in betekenis 1 had ik de [O:] in voor behoorlijk verkort, maar bij het aanpassen van de duur voor betekenis 2 kon dit niet met de [a] in betaalde, dan kreeg je een hele slechte uitspraak van betaalde.

Als ik naar de regels voor duren kijk waar ik gebruik van wilde maken, blijkt dat het daarmee aardig ging. De finale verlenging zit er heel duidelijk, maar niet overdreven in. De lange klinkers duren langer dan de korte, de korte klinkers duren ook langer voor een nasaal dan voor een plofklank, al moet ik hierbij zeggen dat ik dan een vergelijking trek tussen de schwa en andere korte klinkers. De duur van een medeklinkergroep is ongeveer even lang als de duur van een medeklinker, al wijkt het hier toch iets af in mijn zinnen. De medeklinkergroepen waren iets langer in duur dan een medeklinker alleen. De duur hangt ook duidelijk af van de klemtoon. Dat blijkt natuurlijk vooral uit de zinnen waarin ik met het verlengen en verkorten van de duur van syllaben heb geprobeerd de zin niet-ambigu te maken.

Van de regels voor het leggen van de intonatiepatronen ben ik helemaal uitgegaan. Ik heb hierbij alleen eigen inbreng gehad in welk patroon ik over een woord(groep) zal leggen, maar ik heb geen nieuw patroon bedacht. Wat ik moeilijk vond, was het bepalen van de grootte van de stijging van de contouren. Ik kon hier in de literatuur niet een duidelijke aanwijzing over vinden. Ik heb het puur op mijn eigen gehoor gedaan met als uitgangspunt een stijging van 15Hz, die ik op gehoor heb aangepast.

REFERENTIESaanvang document
Universiteit Utrecht Faculteit der Letteren Uw reactie

Laatst gewijzigd: 17 maart 1997 (MvD, HQ) / Hugo Quené