Rapportages

Groei Corpus

Taal oogsten we met Harvester, dat zoekt waar woorden op internet worden gebruikt, en distributedHarvester die de gevonden documenten ophaalt. Op de server worden de zo verzamelde alinea's verwerkt.

Om een indruk te geven van de hoeveelheid gegevens en de groei (in bytes) staat hieronder een dagelijks bijgewerkte grafiek met de voortgang. Klik op de grafiek voor een volledige weergave.

Onze zinnenoogsters

Om onze lijst te onderbouwen, zoeken we van elk woord meerdere voorbeeldzinnen. Ook wordt deze "corpus" gebruikt om veel gemaakte schrijffouten te registreren.

Ook hier kan je deelnemen aan het proces

Statistiek van onze zinnenoogsters