Vakgroep Linguïstiek, Trans 10, 3512 JK Utrecht, telefoon 030-2536265, fax 030-2536000

Français met een Nederlandse tong

Manon Loef

eindwerkstuk cursus TEKST-NAAR- SPRAAK-SYSTEMEN 1997-98

Inleiding

‘ Pour apprendre à prononcer, il faut des années et des années. Grâce à la science, nous pouvons y parvenir en quelques minutes.’ -- Eugène Ionesco, La leçon.
Natuurlijk zegt Eugène Ionesco hier in deze fonetiekles juist het tegenovergestelde van wat gezegd zou moeten worden. Het kost weinig moeite en zeker geen jaren en jaren, om als kind de uitspraak van je moedertaal je eigen te maken. De wetenschap hoeft daar niet aan bij te dragen en zou het niet eens kunnen en zeker niet binnen enkele minuten, daar de kennis van de wetenschap nog lang niet toereikend is. Toch is er al wel een heleboel kennis vergaard. Zoveel zelfs dat het vandaag de dag wel mogelijk is om een computer te laten spreken.

Het is mogelijk een computer te laten spreken met behulp van bijvoorbeeld de MBROLA- synthesizer (ontwikkeld door T. Dutoit & V. Pagel, Faculté Polytechnique de Mons). De MBROLA-synthesizer maakt gebruik van difonen om tot synthetische spraak te komen. Het is mogelijk te bepalen welke difoonset er wordt gebruikt. MBROLA is ontwikkeld met een Franstalige difoonset, maar het is ook te gebruiken met een anderstalige difoonset. Zo is er voor deze opdracht gewerkt met een Nederlandstalige difoonset. De difonen zijn ingesproken door een mannelijke moedertaalspreker van het Nederlands.

De uitgevoerde opdracht bestaat eruit een Franstalige zin te synthetiseren met de Nederlandstalige difoonset. Er valt te verwachten dat dit niet geheel soepel zal gaan klinken, maar er kan best, met de beschikbare middelen, een heleboel worden aangepast om de zin zo Frans mogelijk te laten klinken.

Uitvoering

Wanneer je een Franse uitspraak wilt synthetiseren met een Nederlandse difoonset, kun je problemen verwachten.
Ten eerste kan het voorkomen dat de Franse taal fonemen kent die het Nederlands niet kent en deze fonemen zullen dan ook niet voorkomen in de Nederlandse difoonset. Gelukkig valt dit nog wel mee. Nog een geluk is dat de nasale klinkers geen probleem zullen gaan vormen, want deze komen gewoon voor in de Nederlandse difoonset. ‘Un bon vin blanc’ is zonder moeite te synthetiseren ( bekijk invoer, beluister resultaat). Een ander probleem is dat fonemen die in beide talen voorkomen toch een andere spectrale karakteristiek bezitten. Maar gelukkig bestaan er meer overeenkomsten dan verschillen tussen Franse en Nederlandse fonemen. De enige noemenswaardige verschillen, wat de klinkers betreft, bestaan tussen de klanken met de IPA symbolen [E], [A] en [O]. Ondanks de gelijke IPA symbolen, verschillen deze klinkers akoestisch gezien voor het Frans en het Nederlands. Ze verschillen vooral in de spectrale eigenschappen van de eerste en tweede formant [3]. Deze verschillen zijn helaas niet aan te passen met behulp van de beschikbare middellen. Tenslotte is het nog mogelijk dat de gebruikte difoonset restricties in de klankopeenvolgingen vertoont, die voor de Nederlandse taal wel gelden, terwijl deze klankopeenvolgingen wel kunnen voorkomen in de Franse taal. We zullen verderop zien dat deze problemen een rol spelen bij de difoonsynthese van de Franse zin met de Nederlandse difoonset.

Bij het synthetiseren van de Franse zin zijn er drie werkniveau’s te onderscheiden.

  1. foneem/allofoon
  2. intonatie
  3. duren
Voor het eerste niveau wordt gewerkt met de Nederlandse difoonset ontwikkelt door Arthur Dirksen en Ludmila Menert. Deze difoonset bestaat uit 2321 difonen uitgesproken door een mannelijke moedertaalspreker van het Nederlands. Er kan gebruik gemaakt worden van 53 foneem/allofoon symbolen en een symbool voor stilte.

Wat het tweede niveau betreft, in de MBROLA-synthesizer, die werkt met de Nederlandse difoonset, kan de intonatie ook beregeld worden door het invoeren van een toonhoogte in Hertz en een waarde voor de plaats in de klank waar de toonhoogte beweging begint. Daarnaast is het nog mogelijk om in het spraakprogramma Praat met behulp van de PSOLA methode de toonhoogte contour van de gesynthetiseerde zin te veranderen. Van beide mogelijkheden zijn gebruik gemaakt.

Het laatste niveau is ook op beide manieren te manipuleren. In MBROLA is het mogelijk met waarden de lengte van de klanken te bepalen in msec. De PSOLA methode in Praat maakt het mogelijk de duren van de eenheden te veranderen met behulp van een manipulatie van een grafische representatie van de duurverhoudingen tussen de verschillende klanken. Ook hier zijn weer beide mogelijkheden gebruikt.

De zin die gesynthetiseerd is luidt: Je suis français, mais j’'ai habitué depuis plusieurs années aux Pays-Bas. Zoals dadelijk te horen valt, rijmt de uitspraak van deze zin niet met zijn betekenis.

Allereerst heb ik de zin zelf ingesproken, opgenomen (beluister origineel) en geanalyseerd in Gipos. Dit is gedaan om te beschikken over hoorbaar en zichtbaar vergelijkingsmateriaal.

De volgende stap was om de zin te synthetiseren in MBROLA met de Nederlandstalige difoonset. Bij deze stap is nog niet gekeken naar duren en intonatie. De duren van de klanken zijn allemaal 100 ms en de toonhoogte is monotoon gehouden op 120 Hz (hoewel wanneer je deze toonhoogte contour bekijkt in Gipos, zie je toch een dalende toonhoogte contour).
Met behulp van de 53 foneem/allofoon symbolen is geprobeerd een zo’n goed mogelijke Franse uitspraak te creëren. Een groot geluk is dat de nasale klinkers aanwezig zijn in de difoonset.

Het eerste probleem trad op bij français. Voor dit woord is het symbool /r/ gebruikt, dit klonk een beetje raar, liever zou /R/ worden gebruikt, maar helaas is dit onmogelijk. De opeenvolging van /RA~/ in niet toegestaan in de MBROLA-synthesizer.
De volgende moeilijkheid trad op bij het woord habitué. Dit moest vertaald worden als /habitywe/. Dit klonk erg raar en niet echt vloeiend door /w/, maar zonder /w/, klonk het ook niet goed (invoer, resultaat). Gekozen is voor de eerste manier, met de hoop dat duurverandering een heleboel goed zou kunnen maken.
Nog een probleem ontstond bij het woord plusieurs. Dit is vertaald als /plysjYr/. Beter was geweest om /Oe/ te gebruiken, die voorkomt in bijvoorbeeld ‘freule’, maar helaas kan de opeenvolging /jOe/ niet voorkomen in MBROLA, /JOe/ kan wel voorkomen, maar dan leidt /sJ/ weer tot een probleem. De /Z/ of /z/ in plaats van /sj/ klinkt ook niet goed, terwijl het toch wel een stemhebbende klank zou moeten zijn.
De woordopeenvolging plusieurs années leidt tot een verschijnsel dat in de Franse taal voorkomt: liaison. Liaison treedt op tussen twee opeenvolgende woorden. Het effect van de liaison is dat een medeklinker aan het eind van het eerste woord wel wordt uitgesproken, terwijl dat niet het geval zou zijn als het woord in isolatie zou zijn uitgesproken. Het verschijnsel is een overlevering uit het Oud Frans, waar bepaalde eindconsonanten wel werden uitgesproken, ook in isolatie [1]. De /s/ van plusieurs wordt niet uitgesproken, wanneer het woord in isolatie wordt uitgesproken. Wanneer années erop volgt, wordt de finale /s/ wel uitgesproken en wordt zelfs stemhebbend onder invloed van de /A/. De twee woorden worden dan ook gecodeerd in MBROLA als /plysjYrzAne/, met een /z/ tussen de twee opeenvolgende woorden.
Het resultaat van het eerste werkniveau, waarin alleen gewerkt is met de foneem/allofoon symbolen en nog niet met duur en intonatie, is te inspecteren en te beluisteren (invoer, resultaat).

Bij de volgende stap op het tweede werkniveau is geprobeerd de intonatie zo Frans mogelijk te laten klinken. De intonatie is aangepast met de PSOLA methode in Praat en in MBROLA zelf. De MBROLA methode bleek handiger te zijn, omdat je vrij precies met getallen kunt aangeven hoe je de toonhoogte contour wil laten verlopen. Terwijl het in Praat vrij moeilijk bleek om precieze toonhoogte bewegingen aan te geven.

De gesynthetiseerde zin is op te delen in constituenten: Je suis français,/ mais j'’ai habitué /depuis plusieurs années/ aux Pays-Bas.
De Fransman heeft meer de neiging om woorden in groepen op te delen, dan de sprekers van de meeste andere Europese talen. De Fransman zegt bijvoorbeeld in één groep met één enkel accent op de laatste syllabe: “ un petit enfant”, “un enfant français” en “un petit enfant français”. Deze constituenten zijn in feite een ritmische groep van syllaben. Deze groepen worden in de Franse taal gescheiden door een accent op de laatste syllabe [2].
De gesynthetiseerde zin die het resultaat is van het eerste werkniveau is dan ook met dit bovenstaande gegeven aangepast. Op elke laatste syllabe van elke ritmische groep is een accent geplaatst door middel van een toonhoogte beweging, te weten een punthoed. Verder is op plusieurs een extra accent geplaatst. Daarnaast heeft de allerlaatste syllabe van de hele uiting een extra diepe daling gekregen om deze syllabe een finaal karakter te geven.
Deze procedure is op beide manieren, MBROLA en PSOLA, uitgevoerd (invoer, resultaat).

Het resultaat van het tweede werkniveau is nog verder bewerkt op het derde werkniveau. Daar zijn als laatste stap de duren van de verschillende klanken aangepast. Alle klanken hadden een duur van 100 msec., dit zorgt ervoor dat de hele uiting te langzaam wordt uitgesproken en de duurverhoudingen tussen de verschillende klanken kloppen niet.

Alle klinkers zijn wat korter van duur gemaakt. Behalve de klinkers die in de geaccentueerde positie van de ritmische groep voorkomen, deze klinkers zijn langer gemaakt. Verder zijn er nog een paar uitzonderingen op deze regels. De klank /y/ in het woord habitué is heel kort gemaakt, omdat deze ook bijna niet hoorbaar hoort te zijn. In het woord plusiers is de klank /Y/ langer gemaakt, om hem meer het karakter te geven van de klank die eigenlijk op deze positie had moeten staan: /Oe/. De beginklank van het woord année is in MBROLA gecodeerd als /A/, maar eigenlijk ligt deze klank in het Frans tussen /a/ en /A/. De in MBROLA gecodeerde klank /A/ komt meer in de buurt van de eigenlijke Franse klank, wanneer hij wordt verlengd. Ditzelfde geldt voor de klank /A/ in het woord bas, maar deze wordt toch al verlengd, omdat deze geaccentueerd is. Tenslotte is in het woord pays de klank /e/ verlengd. Wat de medeklinkers betreft, de klank /w/ moet overal worden verkort, vooral in de woorden habitué en depuis. Verder moet de klank /r/ ook overal verkort worden, vooral in het woord plusieurs. De klanken /h/, /j/ en /n/ moeten ook worden verkort. Het is niet nodig gebleken om medeklinkers te verlengen.

Al deze veranderingen zijn weer uitgevoerd op de twee manieren MBROLA en PSOLA. Hierbij gold ook weer wat voor de intonatie ook gold en in sterkere mate zelfs. In MBROLA was het veel makkelijker om de duren aan te passen dan met PSOLA. Echter een nadeel van MBROLA is dat je niet gemakkelijk gedeeltes van het spraaksignaal kunt beluisteren, wat in met PSOLA wel mogelijk is. De resultaten zijn weer te inspecteren en te beluisteren (invoer, resultaat). Het resultaat van de MBROLA versie is nog wat aangepast, omdat de zin wel heel erg snel uitgesproken wordt, hiertoe zijn alle duren 10 % verlengd (invoer, resultaat).

Resultaat & Discussie

Het resultaat valt te beluisteren en rijmt niet met de betekenis van de zin. De zin zou eerder door een Nederlander zijn uitgesproken die in Frankrijk is gaan wonen. Het resultaat strookt wel met de verwachting.
Wanneer door een MBROLA-synthesizer een gesynthetiseerd stukje spraak met een Franstalige difoonset beluisterd wordt (mogelijk bijvoorbeeld op het internet), dan is wel duidelijk dat de hier gesynthetiseerde zin bij lange na niet vloeiend Frans is. De problemen liggen vooral op het foneem-niveau. Intonatie en duren zijn in voldoende mate te manipuleren en zijn zeker nog te perfectioneren.
Ook al is er niet zoveel verschil tussen de Franse en Nederlandse fonemen, de foneem/allofoon symbolen die hier gebruikt zijn, zijn het resultaat van 2321 difonen die nou eenmaal ingesproken zijn door een Nederlander. Naast het probleem van de MBROLA-synthesizer klankopeenvolging restricties, ligt het echte fundamentele probleem erin dat de difoonset voor synthetisatie van een Franse zin wel degelijk zullen verschillen van de Nederlandse difonen. Ze zullen spectraal verschillen, door onder andere assimilatie en coarticulatie verschijnselen. Dit verschil is met geen enkel voorhanden manipulatie te veranderen, wat ook niet echt nuttig zou zijn, behalve dan voor deze opdracht.
Toch zou een mogelijke nuttige toepassing misschien zijn in het spraakonderwijs, waar met behulp van de MBROLA-synthesizer en de difoonset, op een beeldende manier klanken kunnen worden aangepast, zodat de uitspraak verandert van Nederlands naar Frans. Dit zou een hulpmiddel kunnen zijn bij het leren uitspreken van de Franse taal door Nederlanders.

Bronvermelding


aanvang document
Universiteit Utrecht Faculteit der Letteren Fonetiek Uw reactie

Laatst gewijzigd: 9 maart 1998 (ML, HQ) / Hugo Quené