Spellingcorrectie op basis van verwarringsklassen

Janneke Froon (University of Twente)


De zin "Hij loopt hart door hert bos." bevat geen spelfouten in enge
zin, maar wel als bedoeld zou zijn "Hij loopt hard door het bos." Er is
analyse van de context nodig om te zien dat 'hart' en 'hert' in deze zin
niet thuishoren. Ik zal laten zien hoe een normale 'part-of-speech
tagger' ingezet kan worden om dit soort 'real-word errors' op te sporen.
De tagger hoeft niet de hele zin te analyseren, maar alleen de directe
omgeving van woorden waarvan verwacht wordt dat ze problemen geven.
Woorden die onderling gemakkelijk verwisseld worden zijn bijeengebracht,
en geordend in 'verwarringsklassen'. Deze klassen worden berekend met
behulp van een grote hoeveelheid lexicografisch materiaal, zoals de
afbreking en uitspraak van woorden. Ze zijn gebaseerd op
spelfoutcategorieen zoals ze in de literatuur en corpusmateriaal
gevonden kunnen worden. Overal waar een tagger onderscheid kan maken
tussen de woordklasse-eigenschappen van paren verwarbare woorden is dit
een geschikte aanpak.

Om mijn aanpak te illustreren zal ik inzoomen op een pilotexperiment,
gericht op het opsporen van potentiele spelfouten bij de
werkwoordsvormen: grammaticaal bepaalde homofonie. Het zal duidelijk
worden hoe dit experiment de basis is voor verder onderzoek naar
spelfouten als gevolg van verwarring. Telkens als er een mechanisme
beschikbaar komt waarmee eigenschappen van verwarbare woorden worden
onderscheiden, dan levert dit een bijdrage aan contextgevoelig
spellingchecken.