De lijst woorden die we hebben is de basis voor het verder oogsten. We voeren de woorden aan een zoekmachine met de applicatie 'Harvester', die dan de exacte vermeldingen van het woord bekijkt (en dus verschil maakt tussen 'Woord' en 'woord') en de adressen va de documenten waarin die woorden voorkomen verzamelt en doorgeeft aan de database, samen met de telgegevens.
Een andere routine haalt dan de adressen van de documenten weer op, halt de documenten zelf op, vertaalt ze helemaal in ASCII-formaat, bepaalt wat goede zinnen zijn, en geeft deze weer door aan de database.
Zo bevat de server miljoenen unieke zinnen. Uit deze zinnen wordt voor elk woord een minimaal aantal voorbeelden verzameld.
Harvester downloaden en draaien is een eenvoudige manier om bij te dragen.