Etikettarkiv: matematik

Topic Modeling

Topic Modeling är ett uttryck som kom 2006 i samband med att två forskare på University of California-Irvine analyserade 330 000topic_modeling.PNG nyhetsartiklar för att sedan automatiskt göra rubriker till grupper av ord.

Denna typ av text mining listar ut att om orden ”zidane”, ”germany” samt ”football” förekommer i en text så är rubriken troligtvis Fotbolls-VM 2006. Smart va?

”Statistical language models can learn relationships between
topics discussed in a document collection and persons, organizations and
places mentioned in each document. We present a novel combination
of statistical topic models and named-entity recognizers to jointly analyze
entities mentioned (persons, organizations and places) and topics
discussed in a collection of 330,000 New York Times news articles. We
demonstrate an analytic framework which automatically extracts from a
large collection: topics; topic trends; and topics that relate entities.”

Om du vill läsa mer så finns deras uppsats här: http://psiexp.ss.uci.edu/research/papers/isi2006.pdf

Ars technia har en artikel här. Eller Google är din vän.

Vill du ha en snabb checksumma i Python?

Skall du jämföra saker i Python så kan det vara bra att ha en snabb men ej så säker checksum-algoritm, och det finns ju några stycken att välja på. Hittade nedan en jämförelse mellan hash(), zlib.adler32, zlib.crc32 samt md5 som var intressant:

A 0.00166934132576
B 0.00266071277506
C 0.000866203977351
D 0.00112253580338

where…

def A(payload):
….return hash(payload)

def B(payload):
….return md5.new(payload).digest()

def C(payload):
….return zlib.adler32(payload)

def D(payload):
….return zlib.crc32(payload)

Källa.

Observera att hash() returnerar olika beroende på 64/32-bitarsplattformar.

All your n-gram are belong to us

Om någon missat detta och gillar data mining så har nämligen Google för ett tag sedan släppt jättestora n-gram listor som är tillgängliga att köpa(?).

”File sizes: approx. 24 GB compressed (gzip’ed) text files

Number of tokens: 1,024,908,267,229
Number of sentences: 95,119,665,584
Number of unigrams: 13,588,391
Number of bigrams: 314,843,401
Number of trigrams: 977,069,902
Number of fourgrams: 1,313,818,354
Number of fivegrams: 1,176,470,663”

Läs mer här: http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

Varför jag gillar Python

Perl är ett av de språk som jag behärskat längst under min livslängd men på senare tid så har min kärlek för python ökat mer och mer. Detta beror på flera anledningar men främst för att det börjar komma otroligt många moduler som går att använda för att göra undervärk. Exempel på dessa är:

Senså finns det ju såklart massor av andra fördelar, trådningen är superfin och mycket inbyggda bibliotek för diverse prylar återfinns (urllib2).