Zoeken in een corpus

Wieteke

Wat kunnen corpora voor ons betekenen?
Om dit aan den lijve te ondervinden, ga ik zoeken in de Brown Corpus naar 'down'.Wat voor woord is 'down', waar in de zin komt het voor.

'down' komt in totaal 803 keer voor. Hieronder volgt de onderverdeling

woordsoort frequentie percentage
down/RP(particle) 626 77.96%
down/IN(prepositie/onderschikkend voegwoord) 173 21.54%
down/VB(verbium, basisvorm) 2 0.25%
down/NN(nomen) 1 0.12%
down/JJ(adjectief) 1 0.12%

Uit bovenstaande gegevens blijkt dat 'down' meestal als partikel voorkomt. De volgende vraag is nu: 'Waar verschijnt dit partikel? Is dat bijvoorbeeld voor of na een verbum, voor of na een nomen?'

Na een verbum
Ik zoek naar 'V down/RP', hetgeen betekent verbum gevolgd door het partikel 'down'.
Dit komt 423 keer voor. Dit is 67.57% van het aantal keer dat 'down' als partikel voorkomt.
Een paar voorbeeldzinnen:

  1. Since the constitution forbids introduction of a tax bill at a fiscal session , the administration will either have to cut down expenses or inflate its estimates of anticipated revenues .
  2. When Robinson tried to stretch his blow into a triple , he was cut down in a close play at third , Tuttle to Andy Carey .
Gevolgd door een verbum
Na verder zoeken blijkt dat 'down/RP V' ('down' gevolgd door een verbum) maar 4 keer voorkomt. Dit is slechts 0.64% van het aantal verschijningen van 'down' als partikel. Een paar voorbeeldzinnen:
  1. When the Korean war began , on June 25 , 1950 , the anniversary of the day Custer had gone down fighting at the Little Big Horn and the day the regiment had assaulted the beachhead of Leyte during World War 2 , , the 7th Cavalry was not in the best fighting condition .
  2. down through the axis of the bridge there is a long diminishing vista like a visual echo of piers and arches , while the vaults fronting upstream and down frame the sunset and sunrise , the mountains and river pools .
Gevolgd door een nomen
Als partikel voor een nomen komt 'down' 7 (1.12%) keer voor.
Een paar voorbeeldzinnen:
  1. The Commerce Department said seasonally adjusted sales of retail stores dropped to slightly under $18 billion in April , down 1% from the March level of more than $18.2 billion .
  2. Ordinary politeness may have militated against this opinion being stated so badly but anyone with a wide acquaintance in both groups and who has sat through the many round tables , workshops or panel discussions -- whatever they are called -- on this subject will recognize that the final , boiled down crux of the matter is education .
Na een nomen
Een nomen voor het partikel 'down' komt vaker voor, namelijk 47 keer( 7.51%)
Een paar voorbeeldzinnen:
  1. That brings its per-year cost down mighty low .
  2. Fall slowly forward onto the hands and let the body down to rest on the floor .
Gevolgd door een prepositie
Ik bedenk nu dat het als een paal boven water staat dat het partikel 'down' vrijwel altijd voorkomt na een verbum. Ik vul nog wat zoekpatroontjes in voor de volledigheid. Dit levert de volgende resultaten op. Nog 7 keer komt het partikel voor voor een adjectief, 3 keer na een adjectief, 1 keer na een onderschikkend voegwoord en...
289 keer voor een ondergeschikkend voegwoord of prepositie. Een onverwacht resultaat. Ik had over het hoofd gezien dat de verbum-partikel constructie vaak gevolgd wordt door een prepositie zoals in de volgende zinnen:
  1. Jay Porter drew a base on balls to fill the bases but Don Wert 's smash was knocked down by Rudolph for the putout .
  2. This is an issue which boils down to a matter of opinion , depending on whether you 're an American or National fan and anti or pro-Yankee .
  3. I had exactly 20 minutes to get down to the test strip.
Ik laat de andere mogelijke constructies (determiner, interjectie, adverbium) het partikel 'down' even voor wat ze zijn en verdiep mij in de 'V down to' constructie. Deze constructie lijkt namelijk veel voor te komen. Het resultaat is enigszins teleurstellend. Van de 10567 'to' preposities vormen er maar 47 een paar met het partikel 'down'. Toch nog maar even een paar voorbeeldjes:
  1. Clerfayt , driving , sees himself `` a volcano whose cone funneled down to hell ''
  2. This gets down to the heart of our problem , for it reconciles us with God , whom we fear most of all because we have sinned against Him .
Misschien zijn er andere preposities die veel voorkomen met 'down'? 'Down at' komt 23 keer voor, 'down in' 17 keer en 'down into' 10 keer. Bij 'down in' en 'down at' lijkt er meer sprake te zijn van een toevalligheid (i.p.v. een vaste combinatie) dan bij 'down into'.
  1. Then one day , early in January , 1960 , I sat down at my desk , and suddenly I was aware of the crucifix.
  2. Now it seemed almost as if Jesus were looking down at me with sadness in His eyes.
  3. When Robinson tried to stretch his blow into a triple , he was cut down in a close play at third , Tuttle to Andy Carey.
  4. Too many have bogged down in bickering.
  5. He glanced down into his beard and muttered something in Yiddish.
Alle andere combinaties met preposities matchen minder dan 10 keer.

Voor een adverbium 'Down' komt 34 keer voor voor een adverbium. De voorbeelden laten echter zien dat hier geen sprake is van vaste constructies.

  1. Daniel personally led the fight for the measure , which he had watered down considerably since its rejection by two previous Legislatures , in a public hearing before the House Committee on Revenue and Taxation.
  2. The staff deserves a lot of credit working down here under real obstacles.

'Down' komt bijna niet voor met een adjectief of determiner. Blijkbaar vormt het met deze categorieen geen vaste constructies. Verder blijkt dat 'down' nooit vooraf gegaan of gevolgd wordt door interjecties.


Bijwoorden...Het begin

Lennart

We willen graag de buren van bijwoorden in verschillende categorieën onderzoeken, en kijken of er verschillen tussen de categorieën gevonden kunnen worden. Om hier iets zinnigs over te kunnen zeggen gaan we eerst even op onderzoek uit welke woorden we vaak in de buurt van bijwoorden aantreffen. Het eerste gedeelte van deze bladzijde is dan ook een inventarisatie van wat er allemaal kan voorkomen. De bijwoorden zijn willekeurig gekozen, en als er genoeg van gevonden werden heb ik er een klein onderzoekje naar gedaan. Het is dus een beetje een wirwar van getallen en voorbeelden, maar er kunnen toch een paar leuke dingen van geleerd worden die van nut zijn bij het verdere onderzoek.
We beginnen met de bijwoorden als "always" "sometimes", "soon" etc. We zullen eerst eens even zien wat ons opvalt aan de plaats van het woord "always" in een zin. Als we simpelweg "always/RB" intypen in de zoekmachine van het corpus BROWN, krijgen we alle voorkomens van "always" als bijwoord in de zin. Als we dit doen, zien we dat het woord "always" 409 keer voorkomt in de corpus. Het valt meteen op dat er vaak het woordje "not" voorstaat. In 29 gevallen om precies te zijn. Het valt ons ook op, dat er heel vaak een werkwoord achter staat. Als we nu zoeken op "always/RB TO* V|B|H" zoeken we (bijna) alle voorkomens van always met een werkwoord erachter. We zien dat er inderdaad in 259 gevallen "always" gevolgd wordt door een werkwoord. Dit is in 63,3% van de gevallen. Dit is zo opmerkelijk veel dat we ook meteen maar even kijken naar "sometimes" en "soon".
"sometimes" komt 154 keer voor, waarvan 68 keer gevolgd door een werkwoord. Dit is 44,1%.
"soon" komt 165 keer voor, waarvan 68 keer gevolgd door een werkwoord. Dit is 41,2%.

Ook valt het op dat "always" 65 keer voorafgegaan wordt door een persoonlijk voornaamwoord. Dat is 15,8%.
"Sometimes" wordt 16 keer voorafgegaan door een persoonlijk voornaamwoord. Dat is 10,4%.
"Soon" wordt 14 keer voorafgegaan door een persoonlijk voornaamwoord. Dat is 8,5%.

Wat steeds opvalt is dat de tot nu toe gevonden percentages voor sometimes en vooral soon een stuk lager liggen dan bij always.
We gaan dus maar eens even de andere kant op zoeken. We kijken wat ons bij soon opvalt en kijken dan of dat bij always ook zo is.

"Soon" wordt in 26 % van de gevallen (43/165) gevolgd door as of een soortgelijk woord. Dit komt door de uitdrukking "as soon as", die vaak gebruikt wordt.



Mannelijke werkwoorden (???)

We onderzoeken nu het gedrag van "heavily","only" en "really".
Really wordt 195 keer gevonden. 122 keer gevolgd door een werkwoord. 59 keer voorafgegaan door een persoonlijk voornaamwoord. 19 keer voorafgegaan door not.
Heavily wordt 51 keer gevonden. 17 keer gevolgd door een werkwoord. 1 keer voorafgegaan door een persoonlijk voornaamwoord. Nooit voorafgegaan door not.
Only wordt 1207 keer gevonden. 230 keer gevolgd door een werkwoord. 36 keer voorafgegaan door een persoonlijk voornaamwoord. 172 keer voorafgegaan door not.


Ik heb nu een beetje door hoe het BROWN-corpus werkt en welke woorden vaak gebruikt worden direct naast bijwoorden. Ik zal nu dus verder gaan met het daadwerkelijke onderzoek.

Bijwoorden op categorie, wat valt ons op?

We gaan de bijwoorden op categorie indelen volgens de volgende indeling: Deze bijwoorden categorieën komen uit het volgende boek:
Cinque, Guglielmo.: Adverbs and functional heads. New York [etc.] : Oxford U.P., 1999. XII, 275 p. ; 24 cm. [1851595]

Als je op zoek gaat in het BROWN corpus vind je het volgende:
Domain adverbs
Politically
  • Politically wordt 11 keer gevonden in het BROWN-corpus.
  • Politically wordt 2 keer gevolgd door een werkwoord.
  • Politically wordt 1 keer voorafgegaan door not.
  • Politically wordt 0 keer gevolgd door not.
  • Politically wordt 0 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Politically wordt 2 keer gevolgd door een ",".
  • Politically wordt 5 keer gevolgd door een adjectief.
Legally
  • Legally wordt 4 keer gevonden in het BROWN-corpus.
  • Legally wordt 1 keer gevolgd door een werkwoord.
  • Legally wordt 0 keer voorafgegaan door not.
  • Legally wordt 1 keer gevolgd door not.
  • Legally wordt 0 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Legally wordt 0 keer gevolgd door een ",".
  • Legally wordt 1 keer gevolgd door een adjectief.
Pragmatic adverbs
Frankly
  • Frankly wordt 11 keer gevonden in het BROWN-corpus.
  • Frankly wordt 5 keer gevolgd door een werkwoord.
  • Frankly wordt 0 keer voorafgegaan door not.
  • Frankly wordt 0 keer gevolgd door not.
  • Frankly wordt 1 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Frankly wordt 3 keer voorafgegaan of gevolgd door een "." of een ",".
  • Frankly wordt 1 keer gevolgd door een adjectief.
Sincerely
  • Sincerely wordt 7 keer gevonden in het BROWN-corpus.
  • Sincerely wordt 5 keer gevolgd door een werkwoord.
  • Sincerely wordt 0 keer voorafgegaan door not.
  • Sincerely wordt 0 keer gevolgd door not.
  • Sincerely wordt 4 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Sincerely wordt 1 keer gevolgd door een ",".
  • Sincerely wordt 0 keer gevolgd door een adjectief.
Honestly
  • Honestly wordt 11 keer gevonden in het BROWN-corpus.
  • Honestly wordt 6 keer gevolgd door een werkwoord.
  • Honestly wordt 0 keer voorafgegaan door not.
  • Honestly wordt 0 keer gevolgd door not.
  • Honestly wordt 2 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Honestly wordt 1 keer gevolgd door een ".".
  • Honestly wordt 0 keer gevolgd door een adjectief.
Evaluative adverbs
Luckily
  • Luckily wordt 1 keer gevonden in het BROWN-corpus.
  • Luckily wordt 0 keer gevolgd door een werkwoord.
  • Luckily wordt 0 keer voorafgegaan door not.
  • Luckily wordt 0 keer gevolgd door not.
  • Luckily wordt 1 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Luckily wordt 0 keer gevolgd door een ".".
  • Luckily wordt 1 keer gevolgd door een adjectief.
Fortunately
  • Fortunately wordt 3 keer gevonden in het BROWN-corpus.
  • Fortunately wordt 2 keer gevolgd door een werkwoord.
  • Fortunately wordt 0 keer voorafgegaan door not.
  • Fortunately wordt 0 keer gevolgd door not.
  • Fortunately wordt 0 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Fortunately wordt 0 keer gevolgd door een ".".
  • Fortunately wordt 0 keer gevolgd door een adjectief.
Happily
  • Happily wordt 18 keer gevonden in het BROWN-corpus.
  • Happily wordt 9 keer gevolgd door een werkwoord.
  • Happily wordt 0 keer voorafgegaan door not.
  • Happily wordt 0 keer gevolgd door not.
  • Happily wordt 1 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Happily wordt 6 keer gevolgd of voorafgegaan door een "." of een ",".
  • Happily wordt 0 keer gevolgd door een adjectief.
Modal adverbs
Probably
  • Probably wordt 225 keer gevonden in het BROWN-corpus.
  • Probably wordt 127 keer gevolgd door een werkwoord.
  • Probably wordt 0 keer voorafgegaan door not.
  • Probably wordt 7 keer gevolgd door not.
  • Probably wordt 21 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Probably wordt 11 keer gevolgd of voorafgegaan door een "." of een ",".
  • Probably wordt 13 keer gevolgd door een adjectief.
Certainly
  • Certainly wordt 113 keer gevonden in het BROWN-corpus.
  • Certainly wordt 63 keer gevolgd door een werkwoord.
  • Certainly wordt 1 keer voorafgegaan door not.
  • Certainly wordt 10 keer gevolgd door not.
  • Certainly wordt 22 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Certainly wordt 9 keer gevolgd of voorafgegaan door een "." of een ",".
  • Certainly wordt 5 keer gevolgd door een adjectief.
Presumably
  • Presumably wordt 34 keer gevonden in het BROWN-corpus.
  • Presumably wordt 15 keer gevolgd door een werkwoord.
  • Presumably wordt 0 keer voorafgegaan door not.
  • Presumably wordt 0 keer gevolgd door not.
  • Presumably wordt 2 keer voorafgegaan door een persoonlijk voornaamwoord.
  • Presumably wordt 20 keer gevolgd of voorafgegaan door een "." of een ",".
  • Presumably wordt 5 keer gevolgd door een adjectief.
Perhaps
Samenvatting van de resultaten:


  Politically Legally   Tot. domain adverbs
Aantal keren gevonden 11 (100%) 4 (100%)   15 (100%)
Aantal keren gevolgd door ww. 02 (018%) 1 (025%)   03 (020%)
Aantal keren voorafgegaan door not 00 (000%) 0 (000%)   00 (000%)
Aantal keren gevolgd door not 01 (009%) 1 (025%)   02 (013%)
Aantal keren voorafgegaan door pvnw. 00 (000%) 0 (000%)   00 (000%)
Aantal keren naast "." of "," 00 (000%) 0 (000%)   00 (000%)
Aantal keren gevolgd door adjectief. 01 (009%) 1 (025%)   02 (013%)
  Frankly SincerelyHonestly Tot. pragmatic adverbs
Aantal keren gevonden 11 (100%) 7 (100%) 11 (100%)29 (100%)
Aantal keren gevolgd door ww. 05 (045%) 5 (071%) 06 (055%)16 (055%)
Aantal keren voorafgegaan door not 00 (000%) 0 (000%) 00 (000%)00 (000%)
Aantal keren gevolgd door not 00 (000%) 0 (000%) 00 (000%)00 (000%)
Aantal keren voorafgegaan door pvnw. 01 (009%) 4 (057%) 02 (018%)07 (024%)
Aantal keren naast "." of "," 03 (027%) 1 (014%) 01 (009%)05 (017%)
Aantal keren gevolgd door adjectief. 01 (009%) 0 (000%) 00 (000%)01 (003%)
  Luckily FortunatelyHappilyTot. evaluative adverbs
Aantal keren gevonden 1 (100%) 3 (100%) 18 (100%)22 (100%)
Aantal keren gevolgd door ww. 0 (000%) 2 (066%) 09 (050%)11 (050%)
Aantal keren voorafgegaan door not 0 (000%) 0 (000%) 00 (000%)00 (000%)
Aantal keren gevolgd door not 0 (000%) 0 (000%) 00 (000%)00 (000%)
Aantal keren voorafgegaan door pvnw. 1 (100%) 0 (000%) 01 (005%)02 (009%)
Aantal keren naast "." of "," 0 (000%) 0 (000%) 06 (033%)06 (027%)
Aantal keren gevolgd door adjectief. 1 (100%) 0 (000%) 00 (000%)01 (005%)
  Probably CertainlyPresumablyTot. modal adverbs
Aantal keren gevonden 225 (100%) 113 (100%) 34 (100%)372 (100%)
Aantal keren gevolgd door ww. 127 (056%) 063 (056%) 15 (044%)205 (055%)
Aantal keren voorafgegaan door not 000 (000%) 001 (001%) 00 (000%)001 (000%)
Aantal keren gevolgd door not 007 (003%) 010 (009%) 00 (000%)017 (005%)
Aantal keren voorafgegaan door pvnw. 021 (009%) 022 (019%) 02 (006%)045 (012%)
Aantal keren naast "." of "," 011 (005%) 009 (008%) 20 (059%)040 (011%)
Aantal keren gevolgd door adjectief. 013 (006%) 005 (004%) 05 (015%)023 (006%)
  Perhaps   Tot. perhaps
Aantal keren gevonden 204 (100%)    204 (100%)
Aantal keren gevolgd door ww. 022 (011%)    022 (011%)
Aantal keren voorafgegaan door not 002 (001%)    002 (001%)
Aantal keren gevolgd door not 002 (001%)    002 (001%)
Aantal keren voorafgegaan door pvnw. 000 (000%)    000 (000%)
Aantal keren naast "." of "," 055 (027%)    055 (027%)
Aantal keren gevolgd door adjectief. 007 (003%)    007 (003%)


Als we nu de verschillende resultaten willen vergelijken is het handig alle categoriën naast elkaar te zien. Daartoe dient dan ook het volgende overzichtje.

  domain pragmatic evaluative modal perhaps
Aantal procent gevonden 100% 100% 100% 100% 100%
Aantal procent gevolgd door ww. 020% 055% 050% 055% 011%
Aantal procent voorafgegaan door not 000% 000% 000% 000% 001%
Aantal procent gevolgd door not 013% 000% 000% 005% 001%
Aantal procent voorafgegaan door pvnw. 000% 024% 009% 012% 000%
Aantal procent naast "." of "," 000% 017% 027% 011% 027%
Aantal procent gevolgd door adjectief. 013% 003% 005% 006% 003%


Mits we goed in de gaten houden dat de steekproef die hier gehouden is niet geheel representatief is, kunnen we de volgende conclusies trekken: De conclusie die we hier uit kunnen trekken is dat de indeling in categoriëen best aardig is. We zien immers duidelijke verschillen in de percentages die naar voren komen. De domain adverbs vallen zelfs enorm uit de boot. Het is dan misschien ook een idee voor een vervolgonderzoek om de adverbs verder te onderzoeken, waarbij de domain adverbs in een wat groter aantal aanwezig zijn. Dan kan gekeken zijn of de cijfers die hier gevonden zijn echt representatief zijn.

CHILDES corpus

Vincent

http://childes.psy.cmu.edu/
Het CHILDES corpus is toegankelijk door middel van het geheel gratis te downloaden programma CLAN, dat naast een annotate-module ook een (niet al te doorzichtige) analyse-module omvat. Het corpus, eveneens gratis van het Net te halen, is vastgelegd in bestanden met de extensie .CHA. Dat .CHA refereert aan het annoteertaaltje dat is gebruikt in de bestanden. (Zie CHILDES, week1)
Gewapend met deze tool (Commands genaamd) heb ik wat data geanalyseerd, op zoek naar het gebruik van het werkwoordspartikeltje aan. Dus uitdrukkelijk niet zinnen als "Ik geef dit boek aan jou", maar veleer zinnen als "Daar komt hij aan" (derivaat van aankomen), en "Ik maak het vuur aan" (dito, van aanmaken).

De geanalyseerde data kwam van een jongetje genaamd Abel, die de eerste keer getest werd toen hij 1 jaar, 10 maanden en 30 dagen oud was -- vrij jong dus, en waarschijnlijk nog behept met een vrij gebrekkig taalvermogen. De laatste testsessie vond plaats toen Abel 3 jaar, 4 maanden en een dag oud was. Zoals ik zal laten zien is de ontwikkeling van aan, van zomaar een los voorzetseltje tot een werkwoordspartikel goed te volgen.
De Command-analyse-module is eigenlijk niet één module, maar een hele verzameling aan kleine programma'tjes die elk een andere operatie op de aanwezige data kunnen uitvoeren. Dat maakt het programma weliswaar modulair, en dus makkelijk te voorzien van aanvullingen en verbeteringen, maar de integratie en het gebruiksgemak hebben er duidelijk onder te lijden.

Voor de genoemde analyse kwam de module KWAL (sic) in aanmerking:

KWAL- Key Word And Line concordance program searches data for key words and produces the keywords in the context.

Met de searchstring kwal +tCHI +saan -w2 +w2 *.cha komt CLAN (na enige tijd) op de proppen met data, geselecteerd op:
  1. -tCHI  De 'tier' (uiting) dient van het CHILD afkomstig te zijn;
  2. +saan  Dient het woord 'aan' te bevatten;
  3. -w2  Moet de twee regels voor de geselecteerde tier tonen;
  4. +w2  Evenals de twee regels na de geselecteerde tier;
  5. *.cha  En dient afkomstig te zijn uit alle .CHA-bestanden in een bepaalde directory.
KWAL begint dan zijn analyse, met als output 5-regelige corpusfragmentjes, zoals de volgende:

kwal +tCHI +saan -w2 +w2 *.cha
Wed Mar 21 16:55:20 2001
kwal (13-Mar-2001) is conducting analyses on:
ONLY speaker main tiers matching: *CHI;
****************************************
----------------------------------------
*** File "abe20116.cha": line 858. Keyword: aan
*CHI: lachen .
*CHI: xxx .
*CHI: xxx uit Spanje weer aan .
*CHI: xxx ik zie hem al staan .
*CHI: xxx zijn paardje het dek op en neer .
----------------------------------------


Abel, die hier twee jaar en anderhalve maand oud is, lijkt hier al een werkwoordspartikel te gebruiken (aankomen). Dat is echter maar half waar: hij zingt het welbekende St.-Nicolaas-liedje en dus is het de vraag of hij weet hoe die constructie werkt, en of hij hem zelfstandig kan toepassen.
Die komen later pas, voor het eerst op de leeftijd van twee jaar en drie maanden:

----------------------------------------
*** File "abe20302.cha": line 471. Keyword: aan
*CHI: kijk e(en)s .
*JEA: hm .
*CHI: he, daar komt ie aan .
*CHI: he, paard xxx .
*CHI: oh, passen niet [= het past niet] .

Een lijstje met de leeftijden waarop Abel dit soort uitingen doet, ziet er als volgt uit:

  1. 2 jr, 3 mnd, 23 dg. -- "komt vlinder aan"
  2. 2 jr, 10 mnd, 0 dg. -- "zal ik even ook aan vliegtuig aanmaken"
  3. 2 jr, 10 mnd, 28 dg. -- " [<] aan zwemmen"
  4. 2 jr, 10 mnd, 28 dg -- "kom (ee)n nieuwe auto aan ."
  5. 2 jr, 11 mnd, 10 dg --ze heeft nu [= ?] toch een luier aan ?"
  6. 3 jr, 0 mnd, 2 dg -- "komt de trein aan ?"
  7. 3 jr, 0 mnd, 23 dg -- "als ie heeft sokjes aan, dan kan ie niet slapen ."
  8. 3 jr, 4 mnd, 1 dg -- " [//] ik moet de andere zwembroek aan ."
  9. 3 jr, 4 mnd, 1 dg -- "ik doe m(ij)n zwembroek aan ."
Het is moeilijk uit een zo bescheiden hoeveelheid uitingen zinnige conclusies te trekken, maar het lijkt erop dat in deze fase van het taalleren van Abel niet zo zeer de frequentie verandert, maar eerder de verschillende vormen die hij kan gebruiken. Is in het begin vooral de vorm "aankomen" favoriet, later komen ook "aanhebben" en "aandoen" om de hoek kijken.
Maar: deze hoeveelheid data is zeer summier, en CLAN biedt zoals al eerder gezegd eigenlijk niet de analytische tools om grotere hoeveelheden data fatsoenlijk te processen. Voor het verzamelen van bovenstaande data heb ik heel wat knip- en plakwerk moeten verrichten, met als voornaamste oorzaak het ontbreken van syntactische annotaties.

Conclusie

Het Childes-corpus is omvangrijk, maar dat maakt het nog niet noodzakelijkerwijs een waardevol gereedschap. De ontsluiting van het corpus vind ik matig te noemen, het programma CLAN is weliswaar gratis maar slechts zeer summier voorzien van functies die de enorme hoeveelheid data hanteerbaar maken. Dat ligt niet alleen aan de analyse-software, maar ook aan de manier van annoteren. Immers, syntactische categorieen of anderssoortige structurering ontbreekt vrijwel geheel. Dat betekent dat de gebruiker van Childes nog steeds vastzit aan een hoop handwerk; een ruwe selectie door de computer levert een soort van taalkundige erts op. Waarevol, maar nog een lange weg van bewerking te gaan. Dat is nog afgezien van de enorme fragmentatie van de bestanden. Elke sessie is opgeslagen in een apart bestand, wat tot enorme -- en dus onoverzichtelijke -- directories leidt.
Childes zou er significant op vooruit gaan als de data wat verder werd geannoteerd, en de bijbehorende software gelijke tred zou houden met die stap vooruit. De data op zich lijkt mij behoorlijk interessant en nuttig, maar de enorme brij van nu, verspreid over duizenden bestanden, is zeer moeilijk door te komen.