PROSODIE regels maken

(versie 2011)

Uit te voeren op het CIM (Windows computerleerzalen!); inloggen met studentnummer en Solis wachtwoord. Een headset (koptelefoon + microfoon) is in 0.08 te krijgen op afgifte van je collegekaart.

Je zult gebruik maken van de Speech editor van Fluency. Deze is te vinden op

Standard Applications > Applications A t/m K > Fluent Dutch Text to Speech > Speech Editor
[de foutmeldingen kun je negeren]

Als je zelf al geluidsfiles met MBROLA hebt gegenereerd dan zijn die te beluisteren met de programma's Praat of Audacity die op analoge manier te vinden zijn.

We nemen het verhaal van Rudy Kousbroek 'Taal met een hand' als uitgangspunt voor evaluatie.

/sla dit over als je nog geen complete Graph2Phon2Mbrola machine hebt/
  1. Bewerk de tekst zodanig dat de Engelse zinnen eruit zijn of vervangen zijn door Nederlandse  - of accepteer de gevolgen
  2. Zet de tekst met jullie eigen Graph2Phon2Mbrola machine om in een .wav file (of in delen, in verschillende .wav files). Je kunt overwegen om de stiltes die je nu nog voor en na elk woord aanbrengt, weg te halen. Als het lukt zou je de leestekens in de tekst (. , :  etc) WEL moeten omzetten in een stilte.
  3. Beluister het resultaat.

Alhoewel de tekst verstaanbaar is, zal het waarschijnlijk nog niet echt natuurlijk klinken.

Daar gaan we aan werken.

  1. Controleer je Graph2Phon omzetting. Worden voor alle fonemen en clusters in principe de goede difonen gebruikt, of mist er iets in de difoonset?
  2. De pauzes en duren zullen ook niet altijd kloppen. Het is hier nog niet de bedoeling dat je die allemaal corrigeert, maar wel dat je onderzoekt wanneer en waarom een zin onnatuurlijk klinkt. Een goede strategie is om een alinea door Fluency te halen (Fluency kan de hele tekst niet in één keer aan). Bijvoorbeeld:

/tot hier overslaan/

Taal met een hand.

Weels foor de Wels is een vreemd boek. Er komt niet een lang woord in voor. Elk woord in dat boek is kort. Als men het leest weet men eerst niet wat het is, en dan moet men vaak ha! ha! doen, want het staat erg raar, een heel boek met elk woord zo kort. Vaak is het net of een kind het zegt en het geeft ook een soort toon van spot; het viel mij op dat het soms lijkt op de stijl van Piet Grijs. Ik weet niet goed hoe dat komt.

Beluister het resultaat in Fluency. Dat is ook niet altijd geweldig.

In Fluency (Speech Editor) kun je echter gemakkelijk duren en toonhoogten variëren. Fluency is geen freeware en we gebruiken ook een wat oudere versie waar de interactieve mogelijkheden rond toonhoogte en duren inzitten.

Je kunt zowel de orthografie (bovenste venster), de fonetische transcriptie (2e venster), als de duren en toonhoogten veranderen (in het onderste venster). Je kunt in het onderste venster een pitch-point toevoegen of verwijderen (rechtsklik op punt of lijn). Ook kun je in dat venster andere fonemen kiezen.

Kies een alinea uit "Taal met een hand" (het is het handigst als elke student van een groepje een andere alinea neemt, dan hebben jullie straks samen een groot deel van de de tekst bestudeerd) en voer de volgende opdrachten uit.

Opdracht 1, beoordeel de realisaties van Fluency:
Genereer eerst de gekozen alinea, zin voor zin, met Fluency. Beperk je tot maximaal 5 zinnen (verander zo nodig Engelse woorden in een Nederlands equivalent zoals Whales -> weels). Beschrijf wat je de zwakke punten in de synthese vindt. Bespreek in het bijzonder de duren van fonemen, pauzes, en het toonhoogte patroon.

Kies nu uit de alinea één niet te korte zin (waar voldoende variatie in fonemen in zit) en voer daarmee de volgende opdrachten uit:

Sla het default resultaat van Fluency op deze zin als .wav file op.

Opdracht 2, maak 'ideale' uitspraak met de Fluency speech editor:
Onderzoek in Fluency op welke wijze je de foneemduren en toonhoogten moet aanpassen opdat de zin voor jou het beste klinkt. Beschrijf wat je hebt gedaan om de ideale uitspraak te bereiken. Sla je beste resultaat op als .wav file.

LET OP! Met Ctrl^Z kun je in de Speech Editor het hele signaal in een keer op je beeldscherm krijgen, maar je kunt dan niet meer de duren manipuleren. Daarvoor moet je in de default mode zitten (dus niet full-screen). De pitch manipulatie kun je wel altijd uitvoeren.

Lees de orginele Fluency .wav file, en de door jou gemodificeerde .wav file in PRAAT in, bereken en teken het toonhoogtepatroon in Praat, en voeg dat, voorzien van commentaar, aan je verslag toe.

LET OP! Zorg dat er nergens toonhoogtefouten in de contour zitten. Dat bereik je door een juiste instelling van onder- en bovengrens van de toonhoogte. <Sound: to Pitch, en dan Pitch floor en Pitch ceiling instellen>. Normaal gesproken zal een stem hooguit een oktaaf variëren. Je zit dus ruim genoeg met voor mannen (dus Fluency) een onder- en bovengrens van 70 en 200 Hz. Houdt bij het tekenen van de pitchcontour vergelijkbare grenzen aan via <Pitch: Draw, frequency range>, dus voor mannen (Fluency) weer 70 en 200 Hz.

Opdracht 3, spreek zelf de zin in:
Spreek de zin zelf zo natuurlijk mogelijk in. Lees ook deze file in Praat in, en bereken de toonhoogte contour. Probeer close copy stylization te maken (zie onder). Wat valt je op als je het resultaat vergelijkt met jouw 'ideale' Fluency synthese?

LET OP! Zorg er weer dat er nergens toonhoogtefouten in de contour zitten!

CLOSE COPY STYLIZATION.

Dat lukt het eenvoudigst als volgt:

Selecteer Sound X; Periodicity levert Pitch X
Selecteer nu Sound X en Pitch X gelijktijdig; To Maniputate levert Manipulation X
Dan View & Edit geeft nieuw venster
Daarin de optie Pitch (bovenin) en dan Stylize Pitch (frequency resolution 2 Hz), dat geeft de stylization.
De resterende pitchpunten in de stylization kun je manipuleren en beluisteren (net zoals in Fluency), maar nu van je eigen stem.
Via de optie File kun je het resultaat via Publish resynthesis opslaan. Die versie kun je weer als uitgangspunt nemen van een plaatje.

Opdracht 4, duurregels:
Vergelijk jouw 'ideale' foneemduren nu met die welke in Gerrit's MBROLA pagina staan. Bedenk en beschrijf welke verfijningen er in die duurberegeling zouden moeten worden aangebracht. Je mag er van uitgaan dat je straks de beschikking hebt over de taalkundige klassen van de woorden (na Part-Of-Speech tagging). Bedenk regels die zo eenvoudig mogelijk zijn, èn veel effect sorteren.

Opdracht 5, toonhoogteregels:
Bedenk welke toonhoogteregels je in je Phon2MBROLA machine (op basis van informatie uit Part-of-Speech tagging) zou kunnen toepassen.

Opdracht 6:
Geef aan wat de duur- en toonhoogteregels in je gekozen alinea voor effect zullen hebben. Dwz neem de tekst in je verslag op en annoteer waar wat zal gebeuren.

Stuur je verslag met inlevercode TST3 naar Ephorus op.