Karakterfrequentie
Zoals eerder vermeld heb ik enkele overzichten samengesteld na het doen van een klein onderzoek op de woordenlijst 2.00 van OpenTaal. In een aantal kleine artikelen wil ik de resultaten met jullie delen. Bij dezen deel 2, waarin ik het histogram van karakterfrequenties bespreek.
Als men wederom eigennamen buiten beschouwing laat, is het voorkomen van letters te tellen in bijna 320.000 goedgekeurde woorden. Deze bevatten ook vervoegingen en verbuigingen. Door geautomatiseerd de tellingen van karakters, de karakterfrequentie, bij te houden van alle woorden in de woordenlijst is het mogelijk om daar een histogram van te maken. Het eindresultaat is in de volgende grafiek te zien. Let op, dit zegt verder niets over hoe vaak karakters gebruikt worden.
Vanwege de grote aantallen was het nodig te werken met een logaritmische schaal. Hierdoor zijn duidelijk drie gebieden te herkennen. Aan de linkerzijde zijn is eenvoudig een groep te herkennen van letters die het vaakst voorkomen. Deze wordt gevolgd door een groep karakters in het midden die minder vaak voorkomen. Dit zijn met name de y, z, x en q en klinkers met gangbare diakritische tekens zoals de ë, ï, é en è. Deze groep bevat overigens ook het koppelteken, de apostrof en de spatie. Deze leestekens kunnen namelijk deel uit kunnen maken van Nederlandse woorden. De karakterfrequentie neemt in deze groep overigens sterk af.
Als laatste is aan de rechterzijde een groep te vinden van karakters die zelden voorkomen. De voor Nederlandse begrippen exotische ñ maakt hier bijvoorbeeld deel van uit. Deze wordt overigens gebruikt in Spaanse leenwoorden zoals señor, señorita en doña. Verder worden de ä en ô gebruikt in Duitse en Franse leenwoorden zoals aufklärung, hüttenkäse, salonfähig, hôtelier en maîtres d'hôtel. Het wordt nog duidelijker waarom hier over karakters in plaats van letters wordt gesproken omdat deze groep zelfs cijfers bevat. Als men dit overzicht rustig aanschouwt is er heel wat handige informatie in te vinden. Kortom, doe hier je voordeel mee als je weer eens een spelletje galgje speelt.
Ten slotte is hier het bestand te vinden met de tellingen waar bovenstaande grafiek uit vervaardigd is en hier diezelfde tabel in Wiki-opmaak. Zie de licentie van OpenTaal voor hergebruik van dit bestand en de grafiek.
See also the English version of the graph, histogram and table in Wiki markup. All are licensed BSD and Creative Commons.