Vakgroep Linguïstiek, Trans 10, 3512 JK Utrecht, telefoon 030-2536265, fax 030-2536000

Focus en accentplaatsing in het Nederlands;
Een klein taalspelletje

Diana Binnenpoorte

eindwerkstuk cursus TEKST-NAAR- SPRAAK-SYSTEMEN 1997-98

Inleiding

Er wordt wel eens gezegd dat mensen en dieren zich van elkaar onderscheiden in het feit dat mensen kunnen spreken en dieren niet. De spraak zou zijn voortgekomen uit behoefte aan een communicatiemiddel waarbij de handen vrij zouden zijn om andere handelingen mee te verrichten. De klanken zouden langzamerhand steeds meer coherentie vertonen en betekenis krijgen. Geleidelijk aan is de spraak geëvolueerd tot datgene wat de mens sinds enkele duizenden jaren laat horen in allerlei variaties. Tegelijkertijd is de mens gefascineerd geraakt door het wonderbaarlijke van spraak. Levenloze voorwerpen proberen te laten spreken is zeker niet iets van dit computertijdperk, godsbeelden die menselijke klankreeksen voortbrachten, op welke manier dan ook, werden verafgood in onder andere de Griekse beschaving. Zelfs nu nog beweren mensen bomen te horen praten. Na de intrede van bandopname technieken, digitale opslagmethoden en computers kwam de drang voor het maken van automatisch sprekende voorwerpen pas echt op gang; de middelen waren voorhanden. In de loop van de jaren zijn verscheidene systemen ontwikkeld die semi- of geheel automatisch spraakklanken kunnen produceren, van Von Kempelen’s mechanisch sprekende machine tot ‘Fluent Dutch’, een digitaal tekst-naar-spraak systeem voor het Nederlands.

Tijdens de cursus Van Tekst Naar Spraak is kennis gemaakt met enkele spraak producerende systemen. Eén daarvan, de difoon synthesizer MBROLA, onderdeel van eerder genoemde ‘Fluent Dutch’, is gebruikt om een taalspelletje te maken waarin gevarieerd wordt met focus dragende woorden. Onderstaande is een beschrijving van het spelletje. In het eerste deel worden enkele theoretische aspecten over focus en accent plaatsing in het Nederlands beschreven. Daarna volgt een werkverslag, waarin beschreven wordt hoe het spelletje gemaakt is en hoe het werkt.

Focus en accentplaatsing; theorie

In gesproken uitingen kan een onderscheid worden gemaakt tussen normale accentuering en contrastieve accentuering. Een accent kan worden beschreven als een punthoed beweging in het F0 verloop. Normale accentuering is af te leiden uit een focus-accent aanpak, waarin twee fases worden onderscheiden. Als eerste wordt bepaald welke constituenten in een zin worden geselecteerd voor focus. Ten tweede wordt aan ieder gefocust constituent een accent toegekend waarvan de exacte plaatsing afhankelijk is van de lexicale en syntactische structuur. Echter, het blijkt onvoorspelbaar welke constituenten door een spreker in focus zullen worden geplaatst, maar is dit wel bekend dan kan de accent plaatsing worden afgeleid. In voorbeeld (1) staat de constituent ‘die foto’ in focus. In dit focus domein wordt gezocht naar het laatste lexicale element door middel van structuur afhankelijke regels, in dit geval is dat foto, waarbij het accent wordt geplaatst op de klemtoon dragende syllabe. Hoofdletters zullen aangeven dat het deel geaccentueerd is.
(1) Die FOto is wel leuk.
Het probleem blijft om het domein van de focus vast te stellen. Baart (Baart 1988?) heeft daarvoor de substitutie test bedacht. Uit de testzin moet een tweede zin worden afgeleid waarvoor een constituent uit de testzin wordt vervangen door aan analoge constituent met ander lexicaal materiaal. De accentuering wordt niet gewijzigd. Stel dan vast of de twee zinnen met elkaar te combineren zijn tot een coherent geheel waarin de oorspronkelijke zin semantisch contrasteert met de tweede zin. Is dit het geval dan bestaat het focus domein uit de vervangen constituent. Deze test is toe te passen op zin (1):
 
(2) Die FIETS is niet leuk.
    Die FOto is wel leuk.
Uit (2) blijkt dat het constituent dan in focus staat de foto is. Maar de test sluit niet uit of de gehele zin het focus domein kan zijn. In voorbeeld (3) wordt dezelfde accentuering gebruikt, maar een groter constituent genomen dat wordt vervangen:
(3)	Dat schildeRIJ is mislukt, 
	De FOto is wel leuk.
Is eenmaal het focus domein bekend dan wordt door middel van structuur afhankelijke regels bepaald waar het accent komt te liggen. Baart noemt drie regels. Eén van deze regels is de Acccenttoekenningsregel (ATR). Deze stelt dat accenten worden toegekend aan elk terminaal element (een blaadje in een boomstructuur) dat direct gedomineerd wordt door een knoop met het feature [+focus] of dat verbonden is via een pad van knopen die s (strong) gelabeld zijn naar een [+focus] knoop. De labeling van de knopen voor ‘strong’ of ‘weak’ gebeurt door gebruik making van de labelingsregel; een element of knoop wordt ‘strong’ gelabeld als deze een complement of een subject is en in een specifieerder-hoofd omgeving krijgt het hoofd het label ‘strong’. Om dit duidelijk te maken is voor voorbeeld (2) een prosodische boom gemaakt (4)
(4)         				zin
 
   			s				w
 		        [+focus]
 
 		w		s		w		s
 
 		die	           FOto		is	          wel leuk
 
Boom (5) geeft de prosodische boom voor het voorbeeld (3) waarin de hele uiting in heet focus domein stond.
 
(5)           				zin
          [+focus]

  			s				w
		        

		w		s		w		s

		die	           FOto		is	          wel leuk

Maar zoals gezegd is het moeilijk om te voorspellen wat het focus domein voor een uiting is. Via de substitutie test moet er een semantisch oordeel worden geveld over de coherentie van het geheel. Dit is voor een mens met kennis van de wereld aangaande de context van de uiting vaak geen probleem, maar voor een non- deterministische computer is dit gewoonweg onmogelijk. Automatisch toekennen van een focus domein en daar mee samenhangend het plaatsen van accenten door middel van de ATR is niet mogelijk. Het (niet automatisch) plaatsen van contrastieve accenten hangt af van de voorafgaande of komende context. Onderstaande voorbeelden geven een illustratie over de betekenis verandering ten gevolge van de plaatsing van deze accenten. Ook hiervoor geldt dat deze niet te voorspellen zijn en afhangen van de boodschap die de spreker wil overbrengen.
(6)	Die foto is WEL leuk.
Uiting (6) heeft als impliciete betekenis dat andere foto’s niet leuk zijn. Plaatst de spreker het accent op die, zoals in (7), dan krijgt de uiting weer een andere, nog vinnigere betekenis; de andere foto’s zijn echt waardeloos.
(7)	DIE foto is wel leuk.
Uiteraard is het ook mogelijk om op de andere woorden een accent te plaatsen zodat er weer een betekenis wordt gecreëerd. Constrastieve accenten worden niet alleen geplaatst om semantisch onderscheid te maken met de context, maar ook om een onderscheid te maken tussen oude en nieuwe informatie uiteraard aangaande de context. Voor de hand ligt dan dat de nieuwe informatie in focus staat en een accent krijgt, maar uit experimenten blijkt (Nooteboom &Kruyt 1987) dat sprekers ook vaak contextueel oude informatie in focus plaatsen. Dit is vaak het geval wanneer de oude informatie met een andere lexicale invulling wordt genoemd.
(8) De juf [+focus] is ziek. Ze [+focus] komt niet.
Een situatie waarin wel een duidelijk verband kan worden gelegd met [± focus] is in een vraag-antwoord omgeving. De nieuwe informatie die in de voorafgaande context wordt bevraagd staat in [+focus] en krijgt een accent in het antwoord.
(9)a	Wie loopt er op straat?
    b	PIET [+focus]  loopt op straat	.	

(10)a	Waar loopt Piet?
      b	Piet loopt OP STRAAT  [+focus] .  
In voorbeelden (9) en (10) geldt dat hoofdletters het focus domein aangeven. Dit onderscheid in oude en nieuwe informatie kan hoorbaar worden gemaakt door accent plaatsing, een toonhoogte beweging, en een eventuele verlenging van de duur. In onderstaande wordt beschreven hoe door middel van een programma de antwoorden in het taalspelletje hoorbaar worden gemaakt met een accent en een verlenging op de nieuwe informatie.

Focus en accentplaatsing; praktijk

Het volledig automatisch plaatsen van constituenten in focus en accent toekenning bleek niet mogelijk. Er is daartoe ook geen poging gedaan voor deze opdracht. Het doel van de opdracht was om een verschil te kunnen laten horen tussen oude en nieuwe informatie met betrekking op accent plaatsing in een vraag-antwoord omgeving. Het idee is als volgt. Een gebruiker krijgt wat informatie over een situatie waarover later via het beeldscherm vragen worden gesteld. Het antwoord dat de gebruiker intypt, wordt door middel van een MBROLA representatie in een lexicon omgezet naar een *.pho file en omgezet naar een *.aiff file en direct hoorbaar gemaakt.

Omdat de accent plaatsing niet automatisch kan geschieden is een programma geschreven die in eerste instantie een te beantwoorden vraag op het scherm laat zien en het getypte antwoord als input neemt voor herschrijf regels van de input string naar een MBROLA representatie. Deze herschrijving vindt plaats in een heel beperkt en a-flexibel lexicon. Dit lexicon neemt de hele woorden uit het antwoord als input voor de herschrijving en levert voor elk woord een MBROLA representatie af met een vaste duur en toonhoogte beweging. In dit lexicon wordt het verschil tussen oude en nieuwe informatie onderscheiden doordat nieuwe informatie met HOOFDLETTERS door de gebruiker getypt dient te worden, conform voorbeeld (9). Woorden in hoofdletters hebben een andere herschrijving dan woorden in kleine letters.

Het programma 'tns.c' is zoals gezegd zeer beperkt en kan alleen woorden aan die hard in het lexicon zijn gezet. De accent plaatsing en duurinformatie zijn niet af geleid door middel van regels, maar zijn met de hand ingevoerd. Door beluistering is besloten de waarden te nemen zoals te zien in het lexicon. Er is uitgegaan van de neutrale lezing waarbij het toonhoogte verloop een simpele declinatie is, aflopend van 120 Hz naar 70 Hz. Inherentie duren van de klanken zijn wel in de neutrale lezing aangepast. Om een contrast te kunnen creëren tussen oude en nieuwe informatie is als eerste gekozen voor een duuraanpassing voor het betreffende woord waarbij alle difonen een duur aanpassing kregen van 1,5 maal de oude duur per difoon. Na beluistering bleek dit niet het gewenste effect te hebben. Ten tweede is er een aanpassing gemaakt aangaande het toonhoogte verloop. Omdat in deze context een hele stricte woordvolgorde gesteld wordt, is er bij de accent plaatsingen uit gegaan van een F0 beweging uitgaande van de plaats op de declinatie lijn. Frequentie waarden hangen dus af van de plaats van het woord in de hele uiting. Ook dit kan opgevangen worden in regels die werken met vaste verhoudingen tussen tijdsverloop en declinatie en percentage stijging. Echter, implementatie van dergelijke regels voert te ver voor deze opdracht. Het resultaat van de toonhoogte bewegingen bleek na beluistering inderdaad een contrastief effect te hebben. Toch is uiteindelijk gekozen voor een combinatie van zowel duuraanpassing als accent plaatsingen, dit gaf het beste resultaat.

Een ander punt van discussie, naast het gebrek van regels voor een flexibeler resultaat, is het gebruik van woorden als herschrijf atomen. Wegens gebrek aan regels voor duuraanpassingen van difonen in verschillende klank omgevingen en gebrek aan regels voor toonhoogte bewegingen bleek het woord toch een handelbaar atoom. Dit maakt het geheel natuurlijk wel zeer beperkt. Toevoeging van nieuwe woorden aan het lexicon gaat weer gepaard met een luisterexperiment waarna besloten moet worden wat de beste duur is voor de difonen in dat woord, wat het toonhoogte verloop moet worden afhankelijk van de plaats van het woord in de zin. Mede hierdoor klinkt een extreme verschuiving van de woorden in de zin niet natuurlijk. Bovenstaande punten tot verbetering en robuustheid van het programma gaan te ver voor deze opdracht. Hier onder volgt tot slot een beschrijving voor het gebruik van het programma.

Instructies

Om het programma te starten type tns gevolgd door <enter>. Let erop dat het programma gestart wordt in de directory waarin de file ‘vragen.txt’ staat alsmede het script ‘dsyn’. Beide worden door het programma aangeroepen.
Er zijn twee situaties waarover enkele vragen worden gesteld aan de gebruiker. De eerste situatie is als volgt:

Het is zomer. Jan heeft het warm. Hij heeft trek in een ijsje.

De tweede situatie gaat over Marie:

Marie verveelt zich. Ze wil graag een boek lezen. Ze heeft geen boek, daarom gaat ze naar de winkel.

De bedoeling is nogmaals dat de gebruiker het antwoord als een hele zin intypt en hoofdletters gebruikt voor de woorden die nieuwe informatie zijn. Een klein voorbeeld:

(11)  a	Vraag:			wat ziet piet?
      b	Antwoord van gebruiker:	piet ziet een OLIFANT   (geen punt, wel <enter>)
      c	Vraag:			wie ziet een olifant?
      d	Antwoord van gebruiker:	PIET ziet een olifant	(geen punt, wel <enter>)
Veel plezier ermee!

Referenties

Bijlagen


aanvang document
Universiteit Utrecht Faculteit der Letteren Fonetiek Uw reactie

Laatst gewijzigd: 19 maart 1998 (DB, HQ) / Hugo Quené