Etikettarkiv: research

All your n-gram are belong to us

Om någon missat detta och gillar data mining så har nämligen Google för ett tag sedan släppt jättestora n-gram listor som är tillgängliga att köpa(?).

”File sizes: approx. 24 GB compressed (gzip’ed) text files

Number of tokens: 1,024,908,267,229
Number of sentences: 95,119,665,584
Number of unigrams: 13,588,391
Number of bigrams: 314,843,401
Number of trigrams: 977,069,902
Number of fourgrams: 1,313,818,354
Number of fivegrams: 1,176,470,663”

Läs mer här: http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html