Taaltechnologie


Januari/februari 2001


Cursusinhoud | Onderwijsvorm/toetsing | Draaiboek | Leesmateriaal | Practicum |

Docenten

Michael Moortgatmoortgat@let.uu.nl
Jan van Eijckjve@cwi.nl

Cursusinhoud

In het dagelijks leven worden we steeds vaker geconfronteerd met taaltechnologische produkten: computerprogramma's die (met meer of minder succes) kunnen omgaan met natuurlijke taal. Denk aan tekstverwerkers met ingebouwde spelling- en grammatica controle, zoekmachines die op een intelligente manier de gigantische hoeveelheden informatie op het web ontsluiten, vertaalmachines die via een ruwe vertaling ook anderstalige internet-documenten toegankelijk maken, enzovoort. In dit college kijken we naar enkele even eenvoudige als doeltreffende technieken uit de informatica en de logica die aan zulke taaltechnologische applicaties ten grondslag liggen.

In de computerpractica bij het college ga je zelf met deze technieken aan de slag. De 'rode draad' doorheen de practica is een (natuurlijke taal) vraagsysteem bij de Internet Movie Database. Bij het ontwikkelen van een dergelijk vraagsysteem komen verschillende onderdelen van het college samen: het zoeken naar informatie in een databank, het ontleden (parseren) van natuurlijke taal invoer, het opbouwen van een betekenisrepresentatie voor die ontleding, redeneren, ...

Onderwijsvorm en toetsing

Plaats en tijd:

De cursus heeft twee componenten: de hoorcolleges en het computerpracticum. In de onderdelen van het hoorcollege komen verschillende taaltechnologische technieken aan de orde. Bij elk onderdeel hoort een stel opdrachten. Er zijn computeropdrachten, en huiswerkopdrachten. Deadline voor inleveren van de opdrachten is telkens een week na de uitreiking. Alle opdrachten moeten electronisch worden ingeleverd. Details over je practicumaccount vind je hieronder.

Aan de computeropdrachten kan je onder begeleiding werken tijdens de woensdagmiddag sessies. De computerruimte KNG 80 is dan speciaal voor deze cursus gereserveerd. Aanwezigheid tijdens het practicum is verplicht.

Huiswerkopdrachten maak je in je eigen tijd. Je kan natuurlijk ook verder werken aan de computeropdrachten in de publieke computerleerzalen.

Je eindcijfer is de som van je resultaten voor de wekelijkse practicumopdrachten (5/10) plus het resultaat voor de afsluitende toets (5/10). Reken op een tijdsinvestering van 18 uur per week: 4 uur hoorcollege, 3 uur computerlab, de rest huiswerk (en afmaken van lab oefeningen).

Terug naar het begin

Draaiboek

Terug naar het begin

Deel 1 (Week 1+2). Finite-state technieken.

Afsluiting. Terugblik en vooruitblik

Hieronder enkele cursussen die dieper ingaan op de onderwerpen die we in dit college behandeld hebben. Voor een compleet beeld van de plaats van deze cursus in het grotere geheel van computationele taalkunde onderwijs kan je de CTL website bezoeken.

Eindopdracht

De practicumopgaven van week 1 t/m 5 staan voor 5/10 van je eindcijfer voor dit vak. Voor de resterende 5/10 schrijf je een nota: een practicumverslag. De nota heeft drie secties waarin de behandelde onderwerpen aan de orde komen:

Je geeft voor elk van deze onderwerpen/technieken een kort inhoudelijk verslag, en een uitwerking van een opgave naar keuze.

Je schrijft je eindnota in latex (cf Practicum 1), en zet het opgemaakte resultaat als PDF document op je /www directory. Gebruik de korte on-line latex Handleiding als je je afvraagt hoe je met bepaalde documentonderdelen (formules, figuren, tabellen, ... ) om moet springen! Een kopie van de handleiding is beschikbaar op het secretariaat TLW.

Voorbeeldmateriaal vind je in /users.sfinx/prak/scll19/Eindnota. Je kan eindnota.tex gebruiken als startpunt. Dat document roept een aantal pakketten aan voor het opmaken van bomen, grafen, etc. Het resultaat is eindnota.pdf.

Terug naar het begin

Leesmateriaal

Er is geen syllabus bij deze cursus: je kan alle gebruikte referenties op het web vinden.

Terug naar het begin

Practicumaccounts

Voor het practicum krijg je een account op de unix machine sfinx.let.uu.nl. Op die machine heb je je eigen login naam en password: die zijn dus verschillend van je CLZ login gegevens (gekoppeld aan je studentnummer). Je krijgt de sfinx login naam en password tijdens de eerste bijeenkomst.

Hieronder de configuratie details voor je eerste practicum sessie:

Om de toepassing te starten (nu en in de toekomst):

Maak wanneer alles werkt eventueel een koppeling op je desktop naar het bestand F:\sfinx.xs.

We werken met de volgende programma's:

Hieronder een paar nuttige startpunten voor het unix operating system:

De teksten die je in dit college leest zijn gemaakt met TeX/LaTeX, de standaard voor het publiceren (en web publiceren) van wetenschappelijke documenten. Het loont zeer de moeite om, aan het begin van je studie, deze typesetting taal onder de knie te krijgen. Hieronder twee goede startpunten:

Terug naar het begin