6VNGSD: Talen, Methoden & Conclusies

6-Voudige Nederlands-Gerelateerde Swadesh Database

Milkman Dan - be there or b²

Access Database

Download hier de ge-WinZip-te database.

Het doel van de database

Deze database dient om de verschillende van het Nederlands afhangende talen cq. dialecten van het Nederlands met elkaar te vergelijken. Vragen als "Is het Limburgs heel anders dan het Nederlands?", "In hoeverre is het Afrikaans nog gerelateerd aan het Nederlands?", "Lijken Fries en Limburgs op elkaar?" en "In hoeverre is de Nederlandse taal sinds de Middeleeuwen veranderd?" kunnen beantwoord worden. Om antwoorden op al deze vragen te kunnen geven is het noodzakelijk van al deze talen representaties te hebben die met elkaar vergeleken kunnen worden. De representatie die gezien de korte tijd die er beschikbaar was voor dit project het meest geschikt was, was de Swadesh lijst. Dit is een lijst die uit de meest representatieve woorden van een taal bestaat. Het was nu zaak om van alle taalvarianten zo'n Swadesh lijst te maken, die (uiteraard) voor alle taalvarianten dezelfde woorden bevatten. Zo is het mogelijk de woorden van alle taalvarianten met elkaar te vergelijken en hieruit conclusies te trekken. Om te beginnen moest eerst duidelijk zijn welke taalvarianten allemaal vergeleken moeten kunnen worden. We zijn op de volgende lijst taalvarianten uitgekomen: We hebben besloten alle informatie over deze talen in een database te zetten om makkelijk vragen te kunnen stellen over de informatie, en deze makkelijk te kunnen vergelijken. Om de uiteindelijke verschillen goed te kunnen vergelijken hebben we ook part of speech tagging aan de Nederlandse Swadesh lijst toegevoegd. Zo kan ook bepaald worden of bepaalde soorten woorden meer of minder veranderen in bepaalde talen.

Het vergaren van de nodige informatie

Voordat er aan de gang gegaan kon worden, moesten er natuurlijk eerst de nodige bronnen zijn om de benodigde informatie over de talen te krijgen. Als eerste moesten we een geschikte Swadesh lijst hebben. De originele Swadesh lijst bestaat uit honderd woorden, die representatief zijn voor een taal. Omdat later bleek dat deze honderd woorden soms toch niet helemaal genoeg zijn, zijn er verschillende uitbreidingen gemaakt. We zijn uiteindelijk uitgegaan van één van deze uitbreidingen, waar we zelf enige aanpassingen aan hebben gemaakt, omdat deze uitbreiding in het Engels was opgesteld en niet al deze Engelse woorden eenduidig naar het Nederlands vertaald konden worden. Ons voorbeeld is te vinden op http://www.trussel.com/kir/tip.htm, en onze Swadesh lijst staat hier.

Vanuit deze woordenlijst zijn we vertalingen gaan zoeken naar de verschillende taalvarianten. We hebben de noodzakelijke informatie gehaald uit:

Na heel wat uurtjes ploeteren waren uiteindelijk de lijstjes met vertalingen redelijk compleet, en konden ze in de database gestopt worden.

Het opzetten van de database

Omdat er in de uiteindelijke database vijf talen moeten komen, maar er misschien later nog meer aan toegevoegd moeten kunnen worden is de database opgezet met ëën tabel per taal. De tabel Nederlands bevat de standaard Swadesh lijst, met voor iedere entry een apart identificatienummer. De lijst van woorden staan in een kolom genaamd Woord en de identificatienummers staan in een kolom ID. Ook is aan deze tabel de tagging toegevoegd onder de noemer Soort.

Omdat de woorden niet altijd eenduidig zijn, het woord "bot" komt bijvoorbeeld twee keer in de lijst voor, de eerste keer als een menselijk bot, en de tweede keer als een bot mes, moet er soms wat extra uitleg gegeven worden bij de woorden. Omdat die extra uitleg niet altijd noodzakelijk is, is het zonde om de uitleg in de tabel Nederlands op te nemen, er komen dan immers veel lege plekken in de tabel te staan, en dat is pure ruimteverspilling. Derhalve is er ook een tabel Commentaar waarin al deze extra uitleg opgenomen is. Deze tabel bevat de kolommen RealID, een uniek identificatienummer, ID, een nummer dat rechtstreeks verwijst naar het ID in de tabel Nederlands, Taal, een waarde die aangeeft op welke taal dit commentaar slaat, zo kan er later ook commentaar op bijvoorbeeld het Fries gegeven worden zonder dat er een speciale tabel CommentaarFries aangemaakt hoeft te worden, en als laatste natuurlijk de kolom Commentaar waarin het commentaar zelf staat.

Er is ook een tabel genaamd Talen aanwezig. In feite heeft deze tabel geen betrekking op het daadwerkelijke taalonderzoek, maar dient hij ter informatie van eventuele latere gebruikers. Zo staat er in deze tabel aangegeven welke talen er in de database staat, Taal, staat er aangegeven wie de woorden in deze tabel heeft opgezocht, Transscribeerder, ook staat er aangegeven waar de informatie vandaan komt, Waarvandaan, en heeft iedere taal een eigen identificatienummer, ID.

Als laatste zijn de tabellen voor de verschillende talen opgenomen in de database, de naam van deze tabellen is gewoon de naam van de taal, zoals hij in de tabel Talen staat. Deze tabellen hebben verder wel allemaal eenzelfde opzet. Ze hebben allemaal voor iedere entry in de database een uniek identificatienummer, RealID, ze hebben allemaal een ID die rechtstreeks verwijst naar de ID in de tabel Nederlands, en derhalve aangeeft van welk woord in het Nederlands dit woord een vertaling is. Let wel, door deze indeling is het mogelijk voor één Nederlands woord verschillende vertalingen te geven, we geven ze immers allemaal een eigen RealID, en er kan er makkelijk meer dan één naar dezelfde ID verwijzen. Overigens zijn de reeds bestaande tabellen zo opgezet dan de ID niet handmatig opgezocht hoeft te worden, maar dat er uit een lijstje met woorden en extra uitleg een woord gekozen kan worden, waarna de bijbehorende ID ingevuld wordt. Natuurlijk is er nog een kolom nodig, te weten Vertaling, waarin de vertaling van het woord aangegeven bij ID in de desbetreffende taal gezet kan worden.

De resultaten

Er zijn een aantal opvallende overeenkomsten te signaleren. Bewust gebruiken we hier het woord signaleren, omdat de gebruikte statistische methoden te grof zijn om steekhoudende conclusies te trekken. Dat neemt niet weg dat de gevonden resultaten de weg kunnen wijzen voor verder onderzoek. Hieronder volgen de besprekingen van een aantal taalcombinaties die opvallende overeenkomsten vertonen, en ook wordt het Limburgs, dat een buitencategorie blijkt te zijn, onder de loep genomen.

Het Middelnederlands en het Afrikaans
Er zijn 56 overeenkomstige woorden tussen het Afrikaans en het Middelnederlands. Meer dan de helft (52%) van deze woorden zijn nomina. Maar 2% van de verbia komen overeen. Op basis hiervan zou je kunnen concluderen dat de nomina veelal hun oorspronkelijke vormen hebben behouden. Wij denken echter dat deze conclusie te kort door de bocht is. Veelal hebben verbia nog wel dezelfde vorm, maar heeft in het Afrikaans de infinitief de vorm van de eerste persoon enkelvoud aangenomen. Hier schiet onze onderzoeks methode dus tekort. Een mooi vervolg onderzoek zou zijn in hoeverre deze observatie tot een generalisatie kan leiden.
Middelnederlands-Afrikaans
CategorieAantalPercentage
Alles56100%
N2952%
A1527%
P11,7%
PRON814%
V11,7%
NV11,7%
OV11,7%

Nederlands-Afrikaans

Tussen het Nederlands en het Afrikaans bestaan meer (70) overeenkomsten. Maar ook hier geldt dat voor de overeenkomsten dat ze zich vrijwel beperken tot nomina, adjectieva en pronomina. Tussen het Nederlands en het Afrikaans komt geen enkel verbium overeen. De percentages woordsoorten die oveerkomen tussen het Middelnederlans en het Afrikaans en het Nederlands en het Afrikaans zijn vrijwel gelijk.

Het Nederlamds heeft meer invloed gehad op het Afrikaans, maar de manier waarop zowel het Nederlands als het Middelnederlands van invloed zijn geweest op het Afrikaans is hetzelfde

Nederlands-Afrikaans
CategorieAantalPercentage
Alles70100%
N4651%
A2231%
P11%
PRON914%
NV11%

Nederlands-Middelnederlands

56% van de Nederlandse woorden komt nog overeen met de Middelnederlandse vormen. Opvallend is dat vrijwel alle pronominale vormen overeen komen, namelijk 10 van de 17. Wellicht is dit een woordsoort die door de eeuwen vrij weinig veranderd is.
Nederlands-Middelnederlands
CategorieAantalPercentage
Alles119100%
N4336%
A2517%
ADV11%
P33%
PRON108%
NV11%
OV22%
V3429%
Fries en Middelnederlands
Als je naar de geschiedenis van het Fries kijkt (een uitgebreide geschiedenis is te vinden op Universiteit Wenen, afd. Nederlandistik, dan is het niet heel verwonderlijk dat Fries en Middelnederlands aardig wat met elkaar gemeen hebben (zie tabel). Relatief veel gemeen, dient hierbij opgemerkt te worden, want we praten hier wel over twee verschillende talen, en niet over twee dialecten. Het Fries is namelijk als oorspronkelijke, onafhankelijke taal begonnen, als lid van de Germaanse taalfamilie, en heeft één periode gekent waarin de invloed van het Nederlands zeer groot was, namelijk eind 16e, begin 17e eeuw. De UW-Nederlandistik-site zegt hierover het volgende:

In de loop van de 16e eeuw verloor Friesland zijn onafhankelijkheid - in 1579 werd het deel van de Republiek der Verenigde Nederlanden. Het bestuur kwam in Hollandse handen en het gestandaardiseerde Nederlands werd schrijf-, bestuurs-, school- en kerktaal.

De taal die rond die tijd gesproken werd in 'het Hollandse' zal niet zo veel verschild hebben van de woorden die de 6VNGSD-database bevat. Wat we hieruit kunnen concluderen is dat deze periode blijkbaar van tamelijk grote invloed is geweest op het Fries. De geschiedenis van het Fries leert dat het Fries na dit verlies van onafhankelijkheid teruggedrongen is naar het platteland, waar het een voornamelijk gesproken leven heeft geleid, tot halverwege de 20e eeuw, toen een nieuwe periode van emancipatie begon.

Gezien deze toch tamelijk geringe hoeveelheid contact is het aardig om te zien dat Fries en Middelnederlands een tamelijk grote overeenkomst vertonen.

De totale matching is 39 woorden. De matching per woordsoort staat in de eerste kolom, in de tweede kolom staan de woordsoort-percentages van de oorspronkelijke woordenlijst.

  Fries - Middelnederlands Nederlands
Nouns 56% 39%
Adverbs 18% 21%
Verbs 3% 28%
Pronouns 10% 2%

Opvallend is ook het relatief grote aantal Middelnederlandse pronouns dat het wel gered heeft in het Fries, maar niet in het Nederlands. Het kan echter ook zijn dat dit percentage vertekend wordt door de kleine overeenkomst bij de werkwoorden -- immers, als het één kleiner wordt, wordt het ander relatief groter. Komt daarbij dat ook de werkwoordsmatching vertekend kan zijn door de opbouw van werkwoordsuitgangen in het Fries (zie het stuk over de consequenties van het werken met een database).
Het Middelnederlands en het Limburgs
Bij het vergelijken van het Middelnederlands en het Limburgs valt ons op dat er maar zeer weinig matches (26) zijn. De meeste Middelnederlandse woorden worden dus anders gespeld dan de Limburgse woorden. Hier kunnen verschillende verklaringen voor zijn.

De meest voor de hand liggende verklaring is dat het Limburgs een taal is die voornamelijk gesproken wordt, en dat derhalve het Limburgs woordenboek gemaakt is op de uitspraak van woorden. De woorden in dit woordenboek zijn quasi-fonetisch opgeschreven, en daar het Limburgs een dialect is, worden de meeste woorden anders uitgesproken dan "normaal". Het Limburgs dat in het woordenboek staat matcht dan ook niet met het Middelnederlands.

Een andere mogelijke verklaring is dat het Limburgs, omdat het een dialect is, zich sterk heeft doorontwikkeld, en de woorden heeft aangepast, samen met het Nederlands en het Duits, waarvan ook veel invloed te merken is. Deze verklaring wordt echter onderuitgehaald door het feit dat het Limburgs ook maar 26 matches heeft met het modern Nederlands. Dit zijn voor een groot deel (46%) echter wel andere woorden dan de matches met Middelnederlands.

Aan de cijfers die uit het onderzoek komen blijkt dat het Limburgs nog evenveel op het Nederlands als op het Middelnederlands lijkt. Precies hetzelfde aantal woorden is zowel hetzelfde in het Nederlands en Limburgs als in het Middelnederlands en het Limburgs. Let wel: zelfs de categoriën zijn hetzelfde. Dit is opvallend, daar de helft van de woorden verschillend zijn.

Voor de volledigheid staan hieronder de cijfers betreffende het Limburgs nog even kort aangegeven:

Middelnederlands-Limburgs
CategorieAantalPercentage
Alles26100%
N1038%
A1038%
P312%
NV14%
PRON14%
V14%
Nederlands-Limburgs
CategorieAantalPercentage
Alles26100%
N1142%
A1142%
P28%
NV14%
PRON14%
V00%

De consequenties van het werken met een database

Aan het vergelijken van verschillende talen met behulp van een database zitten verschillende voor- en nadelen. Het belangrijkste voordeel van het werken met een database is meteen een van de dingen waar een database voor gemaakt is. Het is makkelijk veel informatie uit de verschillende talen te combineren met behulp van queries om zo de woorden in de talen met elkaar te kunnen vergelijken. Het is bijvoorbeeld gemakkelijk dat je twee talen naast elkaar kunt zetten om zo de verschillende feiten met elkaar te kunnen vergelijken, een stukje van zo'n query ziet er dan zo uit:

MiddelnederlandsAfrikaansSoort
brandenverbrandV
brandenaanbrandV
brandenbrandV
breetuitgestrekA
breituitgestrekA
broderbroerN
broederbroerN
broerbroerN
bruederbroerN

We zien dat alle verschillende combinaties van woorden met dezelfde betekenis uit de twee talen naast elkaar komen te staan zodat het gemakkelijk is ze met elkaar te vergelijken. De enige twee die echt met elkaar overeen komen is het woord "broer" in de een na laatste regel. Als we alleen dergelijke overeenkomsten willen hebben, dan is het mogelijk een preciese match te vragen:

MiddelnederlandsAfrikaansSoort
anderanderPRON
asasOV
asemasemN
beenbeenN
blomblomN
broerbroerN
datdatPRON
dierdierN
ditditPRON

Wat hier echter vervelend aan is dat je zo alleen de woorden krijgt die precies overeenkomen. Soms willen we echter ook woorden hebben die veel op elkaar lijken, maar niet precies hetzelfde zijn. Zo hadden we in ons eerste voorbeeld bijvoorbeeld de volgende regel staan:

MiddelnederlandsAfrikaansSoort
brandenbrandV

Aan dit voorbeeld is te zien dat in het Afrikaans de infinitief een andere vorm heeft dan in het Middelnederlands. De twee woorden matchen zo niet, hoewel ze eigenlijk wel overeenkomen, ze hebben immers dezelfde stam-vorm, het zijn beide afgeleiden van "brand". In een database is het onmogelijk dergelijke dingen toch te laten matchen, tenzij er een speciaal programma voor geschreven wordt. De database is dan te benaderen via een andere weg, en op die andere weg kan ingewikkelder gematcht worden.

Natuurlijk is dit werkwoordprobleem niet het enige probleem wat we op onze weg gevonden hebben, er zijn ook voorbeelden waarbij de uitspraak precies gelijk is, en er in feite hetzelfde woord bedoeld wordt, maar waar dit er databasetechnisch niet uitgehaald kan worden:

MiddelnederlandsAfrikaansSoort
berchbergN


MiddelnederlandsAfrikaansSoort
bloetbloedN


MiddelnederlandsAfrikaansSoort
boschbosN
etc. etc.

Het werkwoordprobleem was echter wel het probleem waar we het meeste last van hadden, door dit probleem matchte er praktisch geen enkel werkwoord uit geen enkel dialect/taal. Alle talen en dialecten hadden in ons onderzoek een eigen uitgang, en derhalve lijken ze allemaal niet precies op elkaar.

Conclusie

De mogelijkheden van een database zijn in potentie enorm. Grote hoeveelheden data kunnen op relatief eenvoudige wijze zeer snel verwerkt worden. Een groot nadeel is echter de 'domheid' van een database; zoals bovenstaand project laat zien trekt een database zich niets aan van verschillende werkwoordsuitgangen met dezelfde stam of spellingsconventies. Dat betekent dat alleen een database voor het vergelijken van verschillende talen niet toereikend is. De database zou voor een project als dit uitgebreid moeten worden met eenvoudige syntactische regels en enig begrip van fonologische en morfologische principes.
Dat is zeker geen onmogelijke taak, en zou buiten het kader van deze cursus ongetwijfeld tot de mogelijkheden behoren. Misschien dat er dan ook meer steekhoudende conclusies kunnen worden getrokken over de verwantschap tussen deze talen.

Lennart Swart, Wieteke Dijkman, Vincent Jacobs
2001