De Grote Van Dale in brokjes

Oele Koornwinder (Utrecht University)


Welke woorden eindigen op 'ificatie'? Welke stammen kennen zowel een
afleiding op 'ing' als 'erij'? Deze en andere morfologische vragen
kunnen inmiddels systematisch worden beantwoord. De afgelopen twee jaar
heb ik gewerkt aan de ontwikkeling van een morfologische gegevensbank
voor het Nederlands. Deze gegevensbank biedt nieuwe mogelijkheden voor
taalkundig onderzoek en taaltechnologische toepassingen, en dient als
sleutel voor een diepere structurering van lexicografische bestanden.
De morfologische gegevensbank bestaat nu uit een verzameling van ruim
80.000 woorden en woorddelen, die semi-automatisch in morfemen zijn
'opgehakt', namelijk in zo'n 20.000 stammen en 3.000 affixclusters. Met
dit alles wordt de complete trefwoordenlijst van de Grote Van Dale
gedekt (240.000 trefwoorden).

De mogelijkheid om lexicografische bestanden te structureren op basis van hun morfologische stam heeft zijn nut reeds bewezen bij de redactionele controle van een groot bestand met uitspraakrepresentaties. We kwamen zo gemakkelijk allerlei subtiele inconsequenties op het spoor. Zulke controles leveren overigens interessante feedback op de gegevensbank, waardoor ook deze steeds weer iets beter wordt.

Het belangrijkste onderzoek waar ik me mee bezig ga houden is de combinatoriek tussen stammen en affixen/affixclusters. Ik zal de structuur en inhoud van de morfologische gegevensbank illustreren aan de hand van een prototype.