Woordfrequentie

Woordfrequentie geeft aan hoe vaak een woord wordt gebruikt in een gegeven context.

Studies op het gebied van woordfrequentie behoren tot het domein van de corpustaalkunde. Ze spelen een belangrijke rol bij het samenstellen van een zo praktisch mogelijke basiswoordenschat en van woordenboeken.

Frequentie als maatstaf[bewerken | brontekst bewerken]

Corpora worden gebruikt om synchrone of diachrone studies omtrent een veelvoud aan taalkundige fenomenen te analyseren; veelal hanteert men daarbij de woordfrequentie als maatstaf. Men kan bijvoorbeeld het aantal malen dat een bepaald woord voorkomt vergelijken tussen verschillende corpora, teneinde vervolgens conclusies met betrekking tot bepaalde tendensen in de taal te trekken. Een functiewoord (zoals een lidwoord) heeft in de regel bijvoorbeeld een hogere frequentie dan een inhoudswoord (zoals een zelfstandig naamwoord). De frequentie van een bepaald lexeem kan met behulp van een speciaal programma worden opgezocht, dat de collocaties registreert.

Men maakt een onderscheid tussen de type frequency en de token frequency. De token frequency is het zuiver statistische aantal malen dat een bepaalde vorm voorkomt: men kan in een Nederlandstalig corpus bijvoorbeeld zoeken hoe dikwijls het bijwoord 'middelerwijl' voorkomt. De type frequency staat daarentegen voor de frequentie van een bepaalde constructie: men kan in datzelfde corpus ook nagaan hoeveel maal 'middelerwijl' of 'middelertijd' voorkomt, door te zoeken naar alle samenstellingen met 'middeler-'. Dit geeft dan een idee over de courantheid of schaarste van dergelijke woorden.

De context waarin een token voorkomt, is eveneens relevant; de 'aanpalende' woorden worden de collocaten genoemd. Een reeks opgezochte tokens met bijhorende collocaten noemt men een concordantie.

Zie ook[bewerken | brontekst bewerken]