Het Corpus Gesproken Nederlands

Nelleke Oostdijk (University of Nijmegen)


In juni 1998 is het Project Corpus Gesproken Nederlands van start gegaan.
Doel van dit project is de aanleg van een corpus hedendaags gesproken
Standaardnederlands zoals dat gesproken wordt in Nederland en Vlaanderen.
De beoogde omvang van het corpus is 10 miljoen woorden, waarvan 2/3 deel
afkomstig is uit Nederland en 1/3 uit Vlaanderen.

Het Corpus Gesproken Nederlands wordt gevormd door een gemotiveerde selectie van een groot aantal fragmenten van (opnames van) gesproken tekst. IN totaal gaat het hierbij om een duizendtal uren spraak. Al het materiaal wordt orthografisch getranscribeerd, terwijl er tevens een oplijning plaatsvindt, waarbij de orthografische transcriptie gekoppeld wordt aan het spraaksignaal. De orthografische transcriptie vormt vervolgens het uitgangspunt voor de verrijking van het materiaal met woordklasse-informatie. Verder is voor een selectie van 1 miljoen woorden voorzien dat er een fonetische transcriptie wordt vervaardigd, dat er een geverifieerde oplijning op woordniveau beschikbaar komt en dat het materiaal door middel van een syntactische annotatie wordt verrijkt. Ten slotte wordt een bescheiden deel, circa 250.000 woorden, van een prosodische annotatie voorzien.

In deze presentatie wordt een overzicht gegeven van de stand van zaken.