Woordfrequenties gepubliceerd

De meest recente export van de telling van 'woorden', verzameld uit onze oogst, is nu ook gepubliceerd onder Downloads, naslagwerken.

Dit bestand bevat niet alleen correcte woorden. Voor allerlei onderzoek kan het nuttig zijn om ook de tellingen te hebben van woorden die fout zijn.

Om alleen de tellingen van correcte woorden te krijgen is natuurlijk eenvoudig een combinatie te maken met onze woordenlijst, het bronbestand.

Uitgangspunten voor woordenlijst

Omdat er over veel woorden gediscussieerd kan worden, is het goed om de uitgangspunten vast te stellen.

Goed of fout

Voor de ' groene' versie van de woordenlijst (momenteel de enige) hanteren we de richtlijnen van de Taalunie als uitgangspunt, zowel de leidraad als de woordenlijst op www.woordenlijst.org.

Daar waar we het gevoel hebben dat er iets niet klopt, gaan we de discussie met ze aan. Wat er uiteindelijk correct en niet correct is bepaalt de Taalunie, met het keuringsproces.

Nu keurt de Taalunie momenteel niet de afgeleide woordvormen (flexievormen). Flexievormen nemen we alleen op als het basiswoord correct bevonden is, en de flexievorm door ons akkoord is bevonden.

Opnemen of niet

Niet alle woorden die correct zijn, nemen we ook op. Woorden die verwarrend zouden kunnen zijn, controleren we op de verhouding tussen correct en incorrect gebruik. Is het gebruik te vaak verkeerd, dan markeren we het woord als ' verwarrend' . Dan nemen we het ook niet op in de spellingcontrole.

De mate van gebruik van een woord is altijd al bepalend of een woord ook wordt opgenomen.

Eigennamen

Eigennamen worden niet gekeurd. Achternamen worden door ons zelf gevalideerd.Bedrijfsnamen op de site van het bedrijf zelf (donorprincipe). Familienamen controleren we in de openbare registers en telefoongidsen.

Namen van landen worden gevalideerd bij de Taalunie in het register. We nemen alleen de officiële Nederlandse namen over. Zijn er meerdere schrijfwijzen, dan hanteren we de meest Nederlandse (bijvoorbeeld Kenia, niet Kenya). Omdat deze lijst nogal veranderlijk is, is dit lastig bij te houden.

Alfa-2-versie van spellingcontrole 1.10G-flexibel

Eindelijk is het zo ver dat ik het aandurf om een publieke alfaversie van de spellingcontrole met herkenning van (veel) samenstellingen te publiceren.

Wat een puzzel was het.

Een 2e alfaversie kent natuurlijk nog gebreken. Je mag ook niet anders verwachten. Van diegenen die deze alfaversie aandurven hoop ik dan ook veel terugkoppeling te krijgen op het e-mailadres Dit e-mailadres wordt beveiligd tegen spambots. JavaScript dient ingeschakeld te zijn om het te bekijken..

Wat echt anders is aan deze spellingcontrole is:

  • Veel geldige woordsamenstellingen worden geaccepteerd
  • het optionele koppelteken in woorden wordt (meestal) geaccepteerd.
  • bij de foute splitsing automatiserings machine wordt automatiserings- gesuggereerd en geaccepteerd (werkt nu nog alleen correct in OpenOffice.org 3.2).

Geldige samenstellingen die niet als zodanig worden onderkend, foute woorden die als correct worden gezien, alles wil ik weten om een nog betere versie kunnen maken.

Structurele hulp kan ik ook goed gebruiken. Moeilijk is het niet. Het gaat dan om het nakijken van de meest gebruikte woorden, die niet correct zijn voor de gewone 1.10 (en dus niet in onze woordenlijst staan) maar wel door de alfa worden geaccepteerd. Correcte woorden kunnen we opnemen in de lijst voor de keuring, foute of riskante moeten we blokkeren.

Ik hoop bij de laatste actie vooral op de inbreng van de taalkundigen onder ons.

Downloaden? Klik op ' Mozilla'  of 'OpenOffice.org 3.2' .

Na de alfa-fase volgt overigens nog een bètafase. Pas in september zullen we officieel de nieuwe spellingcontrole vrijgeven, met daarin ook de nieuwe door de keuringsprocedure correct bevonden woorden.


Testresultaten:

- 5-3-2010, Jan de R:: samenstellingen werken niet goed in Opera; dezelfde woorden gaan wel goed in Firefox 3.5.8.  Opera heeft kennelijk nieuwere versie van Hunspell nodig.

-5-3-2010, Jan de R: Mozilla-plug-in installeert niet in Firefox 3.6. (Inmiddels aangepast)

-6-3-2010, Jan de R: platteland stelt niet samen; de suggesties zijn wild. (Platteland samensteller gemaakt, samenstellen met tel stopgezet)

-8-3-2010, Peter: plug-in voor OOo is niet correct. (inmiddels gecorrigeerd)

-8-3-2010, Peter: man-vrouwwoorden gaan nog niet goed. (Inmiddels aangepast) Dit heeft gelijk een gebrek in Hunspell 1.2.8 aangetoond. (Voorlopig opgelost door de geoogste fouten als blokkering op te nemen.)

-8-3-2010, Jan de R: Nog voorzichtiger samenstellen met woorden met een tussen-s en woorden die met en zonder s kunnen beginnen. Dat betekende 1400 woorden controleren en aanpassen. (Opgelost door alle woorden die hier een probleem kunnen geven niet meer als samensteller te gebruiken.)

Al met al reden genoeg voor een update. Dus bijwerken maar weer!



-11-3-2010 Ruud B: de volgorde van aanbieden van de suggesties is nog niet best. Dat wordt beter als we aan uiteindelijk de meest voorkomende woorden los gaan toevegen.

-11-3-2010 Ruud B: Veel van de suggesties bij samenstellingen zijn nogal wild. We hebben een filter op te groot verschil van de invoer- en uitvoerwoorden voorgesteld aan de maker van Hunspell. Het verschijnsel wordt naarmate er meer woorden correct met samenstellingen worden gedaan ook minder.

- 28-3-2010 Er zijn veel aanpassingen gedaan. Onder meer om ervoor te zorgen dat alternatieven met een koppelteken eerder worden aangeboden dan allerlei 'kunstwoorden'. Verder is er een aanpassing gedaan voor Mozilla. Die blijkt vreemd om te gaan met de 'maxversion' die in de plug-in is ingesteld.


Wikken en wegen rond de spellingcontrole

Soms moeten we lastige keuzes maken bij het samenstellen van de woordenlijst en spellingcontrole. De woordenlijst is daarbij vooral bedoeld om een zo compleet mogelijk overzicht te geven van correcte woorden, terwijl de spellingcontrole vooral bedoeld is om de gebruiker op taalfouten te wijzen.

Soms is het dan lastig kiezen.

Verwarrende woorden

Sommige woorden zijn correct, maar komen aanzienlijk vaker voor als typefout dan juist gebruikt. Voorbeelden hiervan zijn 'verassen' en 'si'. Dit soort correcte woorden nemen we in de woordenlijst op als verwarrend, en laten ze door de spellingcontrole als fout melden.

Het liefst zouden we in de spellingcontrole waarschuwen voor verwarrende woorden in plaats van gewoon afkeuren, maar dat kan (nog) niet.

Koppelteken

In het Nederlands is in een woord op sommige plaatsen om diverse redenen een koppelteken verplicht, zoals in 'assistent-arts' , 'auto-onderdeel', 'tv-meubel' of 'woon-werkverkeer'. Maar het koppelteken mag ook worden gebruikt als de schrijver het woord anders moeilijk leesbaar vindt, zoals bijvoorbeeld in 'fiets-ster'.

We doen daarom ons best om het facultatieve koppelteken wel te ondersteunen. (Dit in tegenstelling tot alle andere bekende spellingcontrolemechanismen.)

Samenstellingen

In het Nederlands mag je woorden aan elkaar plakken als het om één begrip gaat: adv-dag, meerdagentest, kinderschoenenwinkel.  We proberen dat zo goed mogelijk te ondersteunen met de mogelijkheden die de onderliggende software ons biedt.

Hier ontstaat echter ook het risico van onzinwoorden. Of van woorden die technisch gezien wel juist zijn, maar vaker een typefout zijn. Door zeer kritisch te zijn met de woorden die we wel en niet laten samenstellen (peil bijv. niet, in verband met de verwarring met pijl; ook niet woorden die met en zonder s aan het begin voorkomen (panne en spanne) om problemen met de routines voor  de tussen-s te voorkomen).

Dan blijven er nog typefouten over die toch nog correct worden bevonden. Door de door de spellingcontrole correct bevonden geoogste woorden van intensief naar minder gebruik stuk voor stuk na te kijken onderdrukken we elke gevonden fout.

Elk woord dat u zelf meldt, helpt ons ook weer.

Nadruktekens

Schrijfwijzen als 'vóór' en 'níét' zijn natuurlijk correct, maar worden bij de keuring niet geaccepteerd door de Taalunie. Hierover gaan we nog een keer met ze praten.We willen namelijk graag voorkomen dat mensen 'vóor', 'níet'  of 'wèl' schrijven door hiervoor het juiste alternatief aan te bieden.

En dat zonder in conflict te komen met het keurmerk.

Namen

Eigennamen van personen, organisaties en producten zijn weliswaar basiswoorden, maar worden niet door de Taalunie meegenomen in de keurmerkprocedure. We nemen veel gebruikte eigennamen op, na een eigen controle van de juiste schrijfwijze. Dit om fouten te voorkomen als 'pvda', 'groenlinks', 'FireFox', 'microsoft'. Alleen de gebruiksfrequentie en correctheid zijn hier argument voor opname. Echter, wanneer een organisatie expliciet opname verbiedt, geven we daar natuurlijk gehoor aan.

Samenstellingen met gelijkwaardige begrippen

Wanneer we de verhouding tussen prijs en kwaliteit bedoelen, moeten we prijs-kwaliteitverhouding schrijven. Sommige eindwoorden zijn goede indicatoren van voorafgaande gelijkwaardige begrippen (relatie, verhouding) en kunnen dus van samenstellen worden uitgesloten om prijskwaliteitverhouding en ouderkindrelatie  te voorkomen. Ook kan worden bestreden dat de (meest gebruikte) gecombineerde gelijkwaardige begrippen aan elkaar worden geplakt.

Dutch language support issues (update 2011-01-29)

Introduction

The mission of OpenTaal is to create as good as possible language support for Dutch in (open source or other) software. Besides publishing the source, we trust in existing software components and packages to do the best they can.

However, there appear to be quite some issues to support the Dutch language well.

This page is intended to publish the issues we experience, in the implementation as well as strategic area.

Implementation issues

System spell checking

Advice: use Hunspell for system level

System level spell checking is still very often based on rather primitive spell checkers like Aspell and Ispell. For better language support, switching to Hunspell would enhance spellchecking quite a lot.

Failing software is:

  • Almost all distributions.

 

Character support

Dutch requires the - and ' and ’ to be accepted as part of a word. Otherwise, spell checking is functionally wrong in accepting words like bureau’s as correct. When using Hunspell, the best option to find the special characters to support as part of a word is reading the WORDCHARS clause from Hunspell's affix file.

Failing software:

  • Apple Snow Leopard
  • Mozilla Firefox (issue scot-free for -  ; ' works) Planned to be solved in FF 4
  • Mozilla Thunderbird (same as above)
  • Opera ( registred by Opera as DSK-245935)
  • OpenOffice.org 3.1 (solved in 3.2)
  • Google Chrome (issue 40567)

Warning level in spell checking

Lots of words are correct by itself, but more often seen as an error. Dutch example: kunne (means gender) is often an error for kunnen (to be able to).

An warnng level is needed for these words. (More on this in Strategic).

Failing software: All applications. Hunspell 1.3.0 has some functionality in this area, but the interface with apps is too rigid from the app side to create a different color of underline.

Multi-word spell checking

For Dutch, there are lots of words that are only correct when combined with another word, Example: nota bene. (Otherwise, bene is a typo for benen or been.)

Faling software: All spell checkers and applications.

Hyphenation

Hyphenation is commonly implemented using pattern algorithms. Latest enhancements in the OOo-routines are very promising.But, some words are ambiguous: ballet=je (small ballet) and balle=tje (small ball) e.g. Ambiguous patterns should ideally be presented to the user when the word to hyphenate contains ambiguities.

Failing software: All.

 

Bugs found and features wanted

Hunspell

Bug: option -G reports words which are not input (bad for testing)

Most bugs have been resolved by Hunspell 1.3.0, which was stimulated by a Dutch donation.

Mozilla (Firefox, Thunderbird

  • Shows only 5 spellcheck options, which is too short; reported

Opera

  • Is not able to do compounding, probably due to the older Hunspell code incorporated (in investigation as CORE-28935 by Opera)

OpenOffice.org

  • Feature request: after spellchecking a word, re-apply the auto-improvement of the apostrophe

Google Chrome

  • Complete Hunspell support (40695)

Strategic issues

As shown by the above implementation issues, there is something functionally wrong in language support.

Spellchecking (Hunspell and others) does only one word at a time, and does no warnings. Of course, Grammar checking fills that hole, but is unfortnately not widely accepted as a plug-in. Hyphenation is another loosely tied program.

OpenTaal thinks we need a better approach.

What we would like

We think using an interface like the one built between OOo and grammar checkers is a good thing. We think that interface should be made a bit more generally applicable, resulting in a language support interface module for any applicaion to implement freely.

This module allows several plug-ins per locale that all do their own job, and add markings to the received text and improvement suggestions with a request for a certain unerlinement color.

This way, the single word spell checker could signal erroneous words red, probably erroneous words with orange, while the grammar checker reports its suggestions in blue,  or different colors for different levels of severity (error, warning, info). Even the synonym function could signal synonym availability and offer suggestions.

Hyphenation would just offer the hyphenation options for the words.

This scheme would allow for different plug-ins using different programming languages, all contributing differently, but presenting text improvement suggestions in a standardised way to the applications.