Woordlengte

Na het doen van een klein onderzoek op de woordenlijst 2.00 van OpenTaal heb ik enkele overzichten weten samen te stellen. In een aantal kleine artikelen wil ik deze met jullie delen. Bij dezen deel 1, waarin ik het histogram van woordlengtes en het langste woord bespreek.

Als men eigennamen buiten beschouwing laat, zijn er bijna 320.000 goedgekeurde woorden te onderzoeken op woordlengte. Deze bevatten ook vervoegingen en verbuigingen. Door geautomatiseerd de woordlengte te tellen van alle woorden in de woordenlijst is het mogelijk om daar een histogram te maken zoals in de volgende grafiek te zien is. Let op, dit zegt verder niets over hoe vaak woorden van een bepaalde lengte worden gebruikt.

Vanwege de grote aantallen was het nodig te werken met een logaritmische schaal waardoor er, naar mijn idee, de vorm van een walvis ontstaat. De onregelmatigheden aan de rechterzijde zijn overigens te verwaarlozen omdat door de schaal deze specifieke staart ontstaat. In de woordenlijst versie 2.00 is één woord het langst, namelijk ontwikkelingssamenwerkingsorganisaties van maar liefst 38 letters.

Ten slotte is hier het bestand te vinden met de tellingen waar bovenstaande grafiek uit vervaardigd is en hier diezelfde tabel in Wiki-opmaak. Zie de licentie van OpenTaal voor hergebruik van dit bestand en de grafiek.

See also the English version of the graph, histogram and table in Wiki markup. All are licensed BSD and Creative Commons.

Stand van zaken

Een samenvatting van de stand per begin 2011 is:

  • Oogsten
    • De door Harvester gevonden en door distributedHarvester opgehaalde pagina's zijn voor 25 % verwerkt zodat er voor elk woord voorbeelden zijn, als ondersteuning van de beoordeling. Het structureel zoeken naar gevonden zeldzame woorden gaat door.
  • Beoordelen
    • Automatisch worden terugkerende Nederlands uitziende woorden voorgesorteerd voor het zoeken van meer voorbeelden. Bij voldoende voorbeelden worden ze in de interactieve functie 'beoordelen' aangeboden voor menselijke controle.
    • Enkele duizenden woorden liggen klaar om aan de Taalunie en INL aangeboden te worden voor keuring, om opname in de woordenlijst mogelijk te maken. Er zijn echter uitdagingen bij de INL, waardoor dit nog niet kan.
  • Spellingcontrole
    • Hunspell 1.2.14 bevat veel verbeteringen voor het Nederlands, maar nog niet alles wat we gevraagd hebben. Er wordt geduwd om deze versie z.s.m. in Mozilla en OOo te krijgen.
    • Witte spelling lijkt, ondanks diverse pogingen om de juridische kant te regelen helemaal stil.
  • Synoniemen
    • De eigen synoniemenfunctie is uitgebreid met het leggen van woordrelaties.
    • Overleg over beschikbaar krijgen van een grote verzameling synoniemen verloopt langzaam vanwege juridische aspecten.
  • Grammaticacontrole
    • Lijdt onder een gebrek aan tijd en inbreng. Er ligt wel een waslijst aan hoofdletter- en andere verwarringen om regels voor te maken.
  • Afbreken
    • Ligt stil door gebrek aan tijd en inbreng.

Hulp gevraagd

In de OpenTaal-community mist nog een aantal specialismen.

Zo hebben we momenteel behoefte aan iemand die voldoende thuis is in Javascript om te kunnen helpen met het verbeteren en aanpassen van bestaande plug-ins voor Mozilla om deze geschikt te maken voor gebruik door OpenTaal.

 

Wie wil helpen?

Spellingcontrole in Joomla in combinatie met Firefox

Standaard wordt bij Joomla de editor TinyMCE meegeleverd. Deze plug-in heeft de optie om een eigen contextmenu te tonen, waardoor je geen gebruik kunt maken van de spellingcontrole van OpenTaal in Firefox.

Hier een korte instructie voor Joomla! 1.5.22 over hoe je dit probleem kunt oplossen.

  1. Login in het administrator-gedeelte van Joomla
  2. Ga naar "Extensies > Plug-inbeheer"
  3. Klik op "Editor - TinyMCE"
    • Hier kun je de instellingen van de editor aanpassen
    • Aan de rechterkant verschijnt een lijst met opties
  4. Stel bij taalcode "nl" in
  5. Ga naar beneden en klik op "geavanceerde parameters"
  6. Zet "context-menu" uit
  7. Klik rechts bovenin op "Opslaan"

Je moet eerst uitloggen en opnieuw inloggen willen de nieuwe aanpassingen werken.