Vakgroep Linguïstiek, Trans 10, 3512 JK Utrecht, telefoon 030-2536265, fax 030-2536000

EMOTIE IN TEKST-NAAR-SPRAAK-SYSTEMEN

Joyce Krull

eindwerkstuk cursus TEKST-NAAR-SPRAAK-SYSTEMEN 1996-97

Abstract

Met behulp van de MBROLA-synthesizer werd een semantisch neutrale zin gemaakt. Deze zin werd voorzien van verschillende intonatie contouren, elk behorende bij een bepaalde emotie. De contouren waren afkomstig van metingen aan de zin zoals uitgesproken door een spreker van het Nederlands die de verschillende emoties nabootste.

Inleiding

Synthetische spraak klonk tot voor kort in meeste gevallen nogal neutraal of zelfs monotoon. Sinds een aantal jaren wordt er steeds meer aandacht besteed aan intonatiepatronen in tekst-naar-spraak systemen om zo de acceptabiliteit van synthetische spraak te verhogen.

Als we dan een stapje verder gaan kunnen we een systeem ook met bepaalde emoties laten praten. Murray en Arnott (1993) zeiden hierover: "...as emotion is an integral part of all speech, carrying much of the information (and sometimes even more than words themselves), emotion effects should be part of all synthetic speech."

Als een spreker met een bepaalde emotie gaat praten worden er een aantal stem parameters beinvloed. Dat zijn het intonatiepatroon (pitch envelope; deze wordt gevormd door een combinatie van de fundamentele frequentie, frequentie range, vorm en timing van de frequentie contour), de speaking rate (dus het aantal woorden per minuut), de temporele opbouw van de uiting (duur van segmenten en pauzes), de stemkwaliteit en de intensiteit.

In de gebruikte versie van de MBROLA-synthesizer (ontwikkeld door T. Dutoit en V. Pagel, Faculté Polytechnique de Mons) zijn slechts aantal van deze parameters controleerbaar. Omdat de MBROLA-synthesizer een difoon-concatenatieve synthesizer is, is het ten eerste onmogelijk om de stemkwaliteit te veranderen aangezien de spraak afkomstig is van een 'menselijke' spreker. Deze spreker heeft zijn eigen individuele stemkwaliteit en in dit systeem is geen parameter aanwezig om de positie van de stembanden te kunnen controleren. Verder is het in deze versie van de MBROLA-synthesizer niet mogelijk om het volume van een uiting te controleren (in een nieuwere versie van het systeem is dit wel mogelijk, maar daar later meer over).

Het onderzoek waarvan hier verslag wordt gedaan zal zich vooral richten op intonatie patronen en duurberegeling met betrekking tot vijf verschillende emoties. Met behulp van een eenvoudig duurberegelingsschema werd een semantisch neutrale uiting gemaakt, die vervolgens werd voorzien van vijf verschillende gestileerde intonatie patronen behorende bij een bepaalde emotie. De gestileerde intonatiepatronen zijn afkomstig uit een onderzoek van S. Mozziconacci (1995). In dit onderzoek liet zij een professionele spreker van het Nederlands zeven emoties nabootsen (neutraliteit, vrolijkheid, saaiheid, verdriet, boosheid, angst en verontwaardiging). Het ging hier om vijf neutrale zinnen die met elke emotie driemaal werden uitgesproken. De intonatie contouren werden vervolgens gelabeld volgens de beschrijving gemaakt door 't Hart, Collier en Cohen (1990). Om een goede beschrijving te krijgen werd de frequentie gemeten op een aantal ankerpunten in de uitingen. De vijf zinnen bevatten allemaal twee geaccentueerde woorden. Bij het labellen van de intonatie contouren bleken alle emoties in een zogenaamd 1&A patroon (toonhoogte stijging en daling op een geaccentueerde syllabe) te passen. Voor iedere emotie werd zo een "mean natural contour" berekend door het gemidelde te nemen van de gevonden ankerpunten. Deze contouren zijn te zien in Figuur 1. Hierin is zichtbaar dat voor de meeste emoties geldt dat de spreker hoger gaat praten en dat er voor de verschillende emoties verschillende frequentie ranges bestaan.

De vraag is nu hoe klinkt het als we deze intonatiepatronen toepassen op een zin die we met behulp van de MBROLA-synthesizer hebben gemaakt? En als dit goed gaat wat betekent dit dan?

Of kunnen we de kwaliteit nog verbeteren door de duren te veranderen? Uit eerdere experimenten van Vroomen, Collier en Mozziconacci (1993) werd namelijk duidelijk dat de het percentage correcte herkenning van de juiste emotie in natuurlijke spraak veel hoger ligt als de parameters intonatie en duur beide aanwezig zijn dan wanneer een van beide afwezig is. Vooral de afwezigheid van een passende intonatie zorgde ervoor dat correcte herkenning bijna onmogelijk was. Hoogst waarschijnlijk zullen beide parameters dus bijdragen aan de acceptabiliteit van de emoties. Een laatste vraag is dan of dit zich laat beschrijven door een aantal regels voor het besturen van emotie in een tekst naar spraak systeem als de MBROLA-synthesizer?

Methode

Voor het maken van de uitingen in MBROLA werd een eenvoudig duurschema bedacht. Ieder foneem / allofoon kreeg een eigen waarde (D) naar wat er in de literatuur beschreven staat en op eigen gevoel. En voor een aantal acties op segmenten zoals klemtoon, einde van de frase, einde van de uiting, woord initiele consonant en clustering werd een bepaalde factor toegekend. Een leidraad hierbij was het artikel over duren van D. Klatt (1976). Ook voor een aantal interacties werd een factor toegekend. Dit waren de interacties klemtoon/einde frase en klemtoon/einde uiting. Hierbij werd rekening gehouden met het feit dat de ene actie ook al invloed heeft op de andere en dat de factor van de interactie dus minder groot is. De uiteindelijke D-waarden van de fonemen en allofonen uit de difoonset voor het Nederlands en de toegekende factor voor bepaalde acties staan in tabellen I en II van de bijlage.

Met behulp van deze duurtabellen werden twee testzinnen gemaakt om de gebruikte duren en (inter)acties te controleren: Het volgende woord is balkon [luister] en Buiten is het herfst, maar binnen is het lekker warm [luister]. Nadat beide zinnen met dezelfde duurtabellen qua duurpatronen acceptabel klonken werd er met behulp van PSOLA een passend intonatiepatroon aangebracht.

Op deze manier werd vervolgens ook de zin gemaakt waar later de emotie-intonatiepatronen zoals beschreven in de inleiding op werden aangebracht. De zin die hiervoor gebruikt werd is:
Het is al BIJna negen UUR. (accenten op bij en uur) [luister]. Deze heeft een semantisch neutrale context en is afkomstig uit het onderzoek van Mozziconacci (1995). Daar was het een van de vijf zinnen die de spreker met de verschillende emoties moest uitspreken.

In dit onderzoek werd gekeken naar zes van de zeven emoties uit figuur 1. Dit waren neutraliteit, vrolijkheid, verdriet, angst, boosheid en verontwaardiging. Met behulp van PSOLA werd voor iedere emotie het desbetreffende standaard-intonatiepatroon gemanipuleerd, rekening houdend met de fundamentele frequentie van de difoon-synthesizer, en werd vervolgens gecontroleerd op herkenbaarheid. De fundamentele frequentie lag vrij laag en daardoor liggen de intonatiecontouren voor de difoon-synthesizer in een lager frequentiegebied dan de intonatie -contouren van de spreker. Als de herkenbaarheid van een bepaalde emotie te wensen over liet werd in MBROLA het duurpatroon aangepast om zo te kijken of dit enige verbetering opleverde. Na duur aanpassing moest opnieuw het standaard -intonatiepatroon worden aangebracht.

alleen intonatie aangepast intonatie en duren aangepast
neutraal luister
boos luister luister
verdrietig luister luister
angstig luister luister
verontwaardigd luister luister
vrolijk luister luister

Resultaat en Discussie

Bij beluistering van de zes emotionele zinnen bleek dat ze vrij veel op elkaar leken. Aangezien er geen perceptie onderzoek is gedaan is het moeilijk om iets over de algemene herkenning te zeggen van deze zes emoties. De zinnen zijn en passent wel door een aantal collega studenten beluisterd en zij konden er slechts een of twee correct herkennen, maar dan niet steeds dezelfde. Dus hier valt moeilijk iets over te zeggen. Globaal gezien waren neutraliteit, verdrietig en verontwaardiging het best herkenbaar en was boosheid het slechts herkenbaar. De in MBROLA gemaakte draagzin had een speaking rate van 210 wpm. Dus alle zinnen hadden dezelfde speaking rate en temporele opbouw. Maar als je verdrietig of angstig bent praat je vaak langzamer dan normaal. En als boos bent in de gefrustreerde zin, of je bent heel erg verontwaardigd dan ga je juist sneller praten dan normaal. Je kunt ook boos zijn op een dreigende manier, maar dan praat vaak lager dan normaal. Het in figuur 1 gegeven intonatiepatroon beschrijft echter een hoge stem en dus waarschijnlijk een wat gefrustreerde boze stem.

Met behulp van deze informatie werd de neutrale draagzin in MBROLA aangepast wat duur betreft. Er werd een versie gemaakt die sneller praatte. Hiervoor werd van elke foneem in de uiting ( dus van elke D) 20 ms afgehaald. Dit is echter een hele eenvoudige manier en het is niet wat er in de werkelijkheid gebeurd als een spreker sneller gaat praten. Hij zal vooral zijn pauzes tussen verschillende segmenten weglaten en op zijn klinkers gaan bezuinigen. Als het spreektempo hoger wordt worden de motorcommando's voor medeklinkers juist versterkt en voor klinkers niet. Het gevolg is dat de realisatie van medeklinkers nog goed klinkt, maar die van de klinkers wordt slordiger en gaan op een schwa lijken. Een verklaring zou kunnen zijn dat informatie in medeklinkers groter is. Zie het schriftbeeld (bv. de gdkst-reclames van een jaar geleden). Een andere verklaring is dat je om en medeklinker te maken wel in een goede stand moet staan anders komt er überhaupt geen medeklinker (maar iets wat op een klinker lijkt, omdat er dan geen afsluiting is). De speaking rate van deze snelle versie was 260 wpm. Van de neutrale draagzin werd ook een langzame versie gemaakt. Dit werd gedaan door bij elk foneem ( dus elke D) 20 ms op te tellen en tussen woorden korte pauzes in te lassen. Ook dit geeft weer niet geheel de werkelijkheid weer. Als mensen langzamer gaan praten gaat dat inderdaad vooral in de pauzes zitten. Maar bij langzamer praten worden vooral de klinkers langer gemaakt, om de doodeenvoudige reden dat je die langer aan kunt houden. De versie met pauzes tussen de woorden klonk uiteindelijk heel hakkelend dus voor de langzame versie is het beperkt gebleven tot het optellen van 20 ms bij D. De speaking rate van deze versie was 170 wpm.

Er kleven nog meer problemen aan het langer maken van de duren, omdat we hier werken met een difoon-contenatieve synthesizer. Je kunt hierin niet ongestraft de waarden langer maken. Als deze te lang worden dan worden de difoon-overgangen uit hun verband gehaald.

Over de snelle versie werden de standaard-intonatiepatronen gelegd van boosheid en verontwaardiging en over de langzame versie die van verdriet en angst. Bij beluistering bleek wel enige verbetering in herkenbaarheid, vooral bij de emoties verdrietig en boosheid. Maar ook hier werd geen perceptie onderzoek gedaan dus of zich hier een daadwerkelijke verbetering heeft voorgedaan is onduidelijk. De emotie vrolijkheid is qua speaking rate ongeveer gelijk aan de neutrale uiting. De toepassing van het standaard-intonatiepatroon leverde echter niet een voldoende vrolijk resultaat op. Bij een gelijkblijvend duurpatroon werd hierom het intonatiepatroon enigszins aangepast. Het eerste 1&A- patroon tussen het eerste en derde ankerpunt werd wat hoger gemaakt zodat het iets hoger was dan het tweede 1&A-patroon. Dit leverde een duidelijk vrolijkere uiting op.

Als we er nu van uit gaan dat deze standaard-intonatiepatronen en de duur veranderingen een acceptabele herkenning opleveren, dan kunnen we over de duurtabellen uit de bijlage een tabel leggen dat voor deze uiting zes emoties beregeld wat betreft intonatie en duur. Dit kan door het aanroepen van de vaste intonatiepatronen en een procedure in het systeem die steeds ± 20 ms bij iedere D optelt. Deze tabel staat in tabel 1 hieronder. In de tabel staat ook volume als controleerbare parameter.We zagen al in de inleiding dat intensiteit toch ook een belangrijke parameter is bij emotie. In de gebruikte versie van MBROLA was het niet mogelijk om het volume te manipuleren. In een nieuwere versie is dit echter wel mogelijk en daarom staan er al vast volume-waarden in de tabel. Deze zijn ontleend aan een experiment van C. Henton (1996) en vormen een goede aanvulling op de tabel.

Tabel 1: Beregeling van intonatie, tempo en volume voor de zes emoties 
(voor F0-patronen: zie fig.1)

emotie		F0-patroon	D +/- 20ms	volume		
------------------------------------------------------
neutraal	A				0.5
boos		B		--		0.7
verdriet	C		+		0.2
vrolijk		D				0.6
verontw.	E		--		0.7
angst		F		+		0.3
------------------------------------------------------

Conclusie

Een antwoord op de vraag: hoe klinkt het als we deze standaard-intonatiepatronen toepassen op een zin die we met behulp van de MBROLA-synthesizer hebben gemaakt is nog niet met een eenduidig goed of slecht te beantwoorden. Wat wel duidelijk is geworden is dat het met een temporegel een stuk herkenbaarder klinkt.

Wat ook in dit onderzoek naar voren komt is dat het mogelijk is om met twee vrij eenvoudige duurtabellen uitingen te maken die qua temporele opbouw heel acceptabel zijn. Voor zinnen van hetzelfde caliber als de hier gebruikte draagzin, dus korte zinnen met twee geaccentueerde syllaben, is het zelfs mogelijk om emoties in de zinnen te beregelen. De herkenbaarheid van deze emoties blijft in dit onderzoek echter nog een beetje onduidelijk. Hier zou in een vervolg onderzoek een perceptie experiment voor moeten worden opgezet met meerdere zinnen en eventueel met meerdere emoties. In een vervolg onderzoek zou dan ook wat meer aandacht kunnen gaan naar de parameter intensiteit met behulp van de nieuwe versie van MBROLA.

Het toekennen van volume had vast en zeker nog meer bijgedragen aan de herkenbaarheid van de emoties. Een verschil met het dagelijks leven is echter dat we als we 'emotioneel zijn' vaak het volume door de uiting heen veranderen. Dus bv. bij een bepaald stukje van een zin harder gaan praten, omdat je dat wilt benadrukken. Dat veranderende volume draagt zeker bij aan de levendigheid van onze spraak, maar je kunt je afvragen of zover moet gaan in tekst naar spraak systemen.

Bronvermeldingaanvang document
Universiteit Utrecht Faculteit der Letteren Uw reactie

Laatst gewijzigd: 3 april 1997 (JK, HQ) / Hugo Quené