Taaltechnologie


Januari/februari 2002


Cursusinhoud | Onderwijsvorm/toetsing | Draaiboek | Practicum | Deelnemers

Docenten

Michael Moortgatmoortgat@let.uu.nl
Jan van Eijckjve@cwi.nl

Cursusinhoud

In het dagelijks leven worden we steeds vaker geconfronteerd met taaltechnologische produkten: computerprogramma's die (met meer of minder succes) kunnen omgaan met natuurlijke taal. Denk aan tekstverwerkers met ingebouwde spelling- en grammatica controle, zoekmachines die op een intelligente manier de gigantische hoeveelheden informatie op het web ontsluiten, vertaalmachines die via een ruwe vertaling ook anderstalige internet-documenten toegankelijk maken, enzovoort. In dit college kijken we naar enkele even eenvoudige als doeltreffende technieken uit de informatica en de logica die aan zulke taaltechnologische applicaties ten grondslag liggen.

In de computerpractica bij het college ga je zelf met deze technieken aan de slag. De 'rode draad' doorheen de practica is een (natuurlijke taal) vraagsysteem bij de Internet Movie Database. Bij het ontwikkelen van een dergelijk vraagsysteem komen verschillende onderdelen van het college samen: het zoeken naar informatie in een databank, het ontleden (parseren) van natuurlijke taal invoer, het opbouwen van een betekenisrepresentatie voor die ontleding, redeneren, ...

Onderwijsvorm en toetsing

Plaats en tijd:

De cursus heeft twee componenten: de hoorcolleges en het computerpracticum. In de onderdelen van het hoorcollege komen verschillende taaltechnologische technieken aan de orde. Bij elk onderdeel hoort een stel opdrachten. Er zijn computeropdrachten, en huiswerkopdrachten. Details over je practicumaccount vind je hieronder.

Aan de computeropdrachten kan je onder begeleiding werken tijdens de woensdagmiddag sessies. De computerruimte KNG 80 1.13 is dan speciaal voor deze cursus gereserveerd. Aanwezigheid tijdens het practicum is verplicht.

Huiswerkopdrachten maak je in je eigen tijd. Je kan natuurlijk ook verder werken aan de computeropdrachten in de publieke computerleerzalen.

Je cijfer is gebaseerd op het eindverslag dat je aan het eind van het blok op je webpagina inlevert. In dat eindverslag verwerk je de uitwerkingen van de opdrachten. Deadline voor inlevering is: 8 maart.

Reken voor deze cursus op een tijdsinvestering van 18 uur per week: 4 uur hoorcollege, 3 uur computerlab, de rest huiswerk (en afmaken van lab oefeningen).

Terug naar het begin

Draaiboek

Terug naar het begin

Deel 1 (Week 1+2). Finite-state technieken.

Slides en achtergronden voor de hoorcolleges: Code en toelichting bij de programma's die de stof illustreren: Opdrachten:

Deel 2 (Week 3+4). Logisch programmeren en Definite Clause Grammars

Slides en achtergronden voor de hoorcolleges: Code en toelichting bij de programma's die de stof illustreren (te vinden in ~scll019/www): Opdrachten: zie de slides.

Deel 3 (Week 5+6). Functioneel programmeren, typentheorie en lambda calculus

Slides en achtergronden voor de hoorcolleges: Code en toelichting bij de programma's die de stof illustreren: Opdrachten: volg de link.

Afsluiting. Terugblik en vooruitblik

Hieronder enkele cursussen die dieper ingaan op de onderwerpen die we in dit college behandeld hebben. Voor een compleet beeld van de plaats van deze cursus in het grotere geheel van computationele taalkunde onderwijs kan je de CTL website bezoeken.

Eindverslag

Je cijfer is gebaseerd op het de eindnota waarin je verslag doet van je uitwerking van de opgaven. Je schrijft je eindnota in latex (cf Practicum 1), en zet het opgemaakte resultaat als PDF document op je www/ directory. Gebruik de on-line hulp voor latex commando's, of de introductie handleiding als je je afvraagt hoe je met bepaalde documentonderdelen (formules, figuren, tabellen, ... ) om moet springen!

De nota heeft drie secties waarin de behandelde onderwerpen aan de orde komen, en een conclusie waarin je je mening over het college verwoordt. Je geeft voor elk van deze onderwerpen/technieken een kort inhoudelijk verslag, en een uitwerking van de bijhorende opgaven. Je kan in je verslag via hyperlinks verwijzen naar de programma's die je hebt geschreven en/of bestanden die je hebt aangemaakt. De bestanden waarnaar je verwijst moeten ook op een toegangkelijke website staan (je www/ directory bijvoorbeeld) staan!

Terug naar het begin

Practicumaccounts

Voor het practicum krijg je een account op de unix machine sfinx.let.uu.nl. Op die machine heb je je eigen login naam en password: die zijn dus verschillend van je CLZ login gegevens (gekoppeld aan je studentnummer). Je krijgt de sfinx login naam en password tijdens de eerste bijeenkomst.

Hieronder de configuratie details voor je eerste practicum sessie:

Om de toepassing te starten (nu en in de toekomst):

Maak wanneer alles werkt eventueel een koppeling op je desktop naar het bestand F:\sfinx.xs.

We werken met de volgende programma's:

Hieronder een paar nuttige startpunten voor het unix operating system:

De teksten die je in dit college leest zijn gemaakt met TeX/LaTeX, de standaard voor het publiceren (en web publiceren) van wetenschappelijke documenten. Het loont zeer de moeite om, aan het begin van je studie, deze typesetting taal onder de knie te krijgen. Hieronder twee goede startpunten:

Terug naar het begin

Deelnemers

De e-mail adressen van de deelnemers vind je hier.

Terug naar het begin