Na het doen van een klein onderzoek op de woordenlijst 2.00 van OpenTaal heb ik enkele overzichten weten samen te stellen. In een aantal kleine artikelen wil ik deze met jullie delen. Bij dezen deel 1, waarin ik het histogram van woordlengtes en het langste woord bespreek.
Als men eigennamen buiten beschouwing laat, zijn er bijna 320.000 goedgekeurde woorden te onderzoeken op woordlengte. Deze bevatten ook vervoegingen en verbuigingen. Door geautomatiseerd de woordlengte te tellen van alle woorden in de woordenlijst is het mogelijk om daar een histogram te maken zoals in de volgende grafiek te zien is. Let op, dit zegt verder niets over hoe vaak woorden van een bepaalde lengte worden gebruikt.
Vanwege de grote aantallen was het nodig te werken met een logaritmische schaal waardoor er, naar mijn idee, de vorm van een walvis ontstaat. De onregelmatigheden aan de rechterzijde zijn overigens te verwaarlozen omdat door de schaal deze specifieke staart ontstaat. In de woordenlijst versie 2.00 is één woord het langst, namelijk ontwikkelingssamenwerkingsorganisaties van maar liefst 38 letters.
Ten slotte is hier het bestand te vinden met de tellingen waar bovenstaande grafiek uit vervaardigd is en hier diezelfde tabel in Wiki-opmaak. Zie de licentie van OpenTaal voor hergebruik van dit bestand en de grafiek.
See also the English version of the graph, histogram and table in Wiki markup. All are licensed BSD and Creative Commons.