Cursusbeschrijving


Dit vak biedt een inleiding in de publiek toegankelijke bestanden van linguïstische gegevens, in het bijzonder corpora en taalkundige databestanden.

Corpora en databestanden spelen een belangrijk role in het formuleren van linguïstische generalisaties en in linguïstische analyses. Corpora worden ook vaak gebruikt voor machine learning.

In de cursus gaan we aandacht besteden aan verschillende soorten corpora (geschreven, gesproken) en gaan we kijken naar verschillende niveaus van annotatie. In het computer practicum gaan de studenten met het Corpus Gesproken Nederlands aan de slag. Verschillende soorten databestanden en technieken om linguïstische databestanden te creeëren zullen worden besproken.

De cursus biedt een goede basis voor het doen van een stage in het kader van bestaande projecten binnen de Letteren Faculteit.

[ English version ]