Kategoriarkiv: Data mining

Sociala medier och mumbaiterror

Niclas på samesamebutdifferent skriver lite om hur sociala medier såsom Twitter används för att direktrapportera från terrorattackerna.

Den numera Twitter-ägda tjänsten Summize som återfinns på search.twitter.com uppdaterar med flera inlägg per sekund om händelseutvecklingen i Mumbai.

Internet börjar nu mer och mer likna det DARPA hade som vision en gång i tiden då Internet skapades för den amerikanska militären:

Flera sajter används (redundans) för rapportering i realtid från krisdrabbade områden.

Bloggkoll, värderingar, brevspam, fonter och slumptal

Markus Jalmerot har gjort en trevlig och grundlig utvärdering av två svenska modebloggare och en vacker dag så kanske jag tar och anammar vissa av dessa parametrar till BloggVärde.se:s värdering. IDG skriver även om detta.

**

Mattias Swenson som enligt mig är en av Sveriges yngsta och hetaste entreprenörer som bl.a står bakom forumet Swedish Startups berättar att BloggKoll nu finns en en alldeles ny fräsch version. Även Christian Rudolf på Disruptive har bloggat om detta.

**

Dan Nilsson slutar aldrig att förvånas och tar till nya guerilla marknadsföringsmetoder för att få ut budskapet om sin nya E-butik RoligaPrylar.se

**

Antalet bloggar som blivit värderade på BloggVärde.se överstiger när som helst 10 000! Det är helt sjukt vilken genomslagskraft sajten har fått. Testade att göra några slagningar i databasen och kom fram till att ungefär 300 svenskar skulle kunna blogga på heltid (räknat på medellön 222 520/år). Men som vanligt så ska man nog inte lita allt för mycket på mina hemmatränade apor!

**

Gillar du Naive Bayes, NGram analys eller kanske bygga dataminingplattformar tillsammans med Marcus Herou som är en av Sveriges främsta utvecklare? Då är Tailsweep rätt ställe för dig.

**

Read Write Web skriver att FontStruct är en ny webbtjänst som låter dig bygga egna fonter direkt på webben och sedan dela med dig av dessa. Jag gillar’t! Är du en riktig design nörd så kan du även gå direkt till överkursen och ladda hem FontForge:

An outline font editor that lets you create your own postscript, truetype, opentype, cid-keyed, multi-master, cff, svg and bitmap (bdf, FON, NFNT) fonts, or edit existing ones. Also lets you convert one format to another. FontForge has support for many macintosh font formats.

**

Lita inte för mycket på dina slumptal, speciellt inte om du använder OpenSSL tillsammans med Debian, Ubuntu eller Knoppix. Luciano Bello har nämligen hittat en brist som gör det möjligt att förutse genererat nyckelmaterial. Testa om du har dåliga nycklar med följande program. Beskrivning:

# Debian/OpenSSL Weak Key Detector
#
# Written by Florian Weimer <[email protected]>, with blacklist data
# from Kees Cook, Peter Palfrader and James Strandboge.

Update: Detta gäller så klart även SSH-nycklar. Se metasploit.com/users/hdm/tools/debian-openssl

When creating a new OpenSSH key, there are only 32,767 possible outcomes for a given architecture, key size, and key type.

**

Du glömmer väl inte heller att gå på det event som Swedish Startups samt Booli håller i? Jag kan tyvärr inte närvara.

**

Puust, så här mycket text som inte varit kod har jag inte skrivit på länge.

Vad har jag på gång?

Jo det händer en hel del nu och mina idéer på nya projekt bara sprudlar. Men med rätt motivation och fokusering så försöker jag iallfall slutföra de projekt som jag startat:

  • Två sökmotorer med speciell inriktning där en av dem är helt unik i sverige och eventuellt i världen på den information som presenteras
    • Den sistnämnda kommer att ha premiär inom två veckor om jag hinner fixa några buggar
  • En unik sökmotor för webben med lite speciella saker som Google inte fixar. Ta patent?
  • Starta ett företag som stöttar dessa projekt med sådant som jag inte fixar som privatperson
  • Köpt ett antal trevliga domäner

Ja listan kan göras lång.

Sitter och funderar också på hur jag kan tjäna pengar på några av dessa projekt samt hur mina stackars servrar skall klara av all information jag avser att trycka in i dem. Men det är ju en utmaning också och sådant gillar jag.

Topic Modeling

Topic Modeling är ett uttryck som kom 2006 i samband med att två forskare på University of California-Irvine analyserade 330 000topic_modeling.PNG nyhetsartiklar för att sedan automatiskt göra rubriker till grupper av ord.

Denna typ av text mining listar ut att om orden ”zidane”, ”germany” samt ”football” förekommer i en text så är rubriken troligtvis Fotbolls-VM 2006. Smart va?

”Statistical language models can learn relationships between
topics discussed in a document collection and persons, organizations and
places mentioned in each document. We present a novel combination
of statistical topic models and named-entity recognizers to jointly analyze
entities mentioned (persons, organizations and places) and topics
discussed in a collection of 330,000 New York Times news articles. We
demonstrate an analytic framework which automatically extracts from a
large collection: topics; topic trends; and topics that relate entities.”

Om du vill läsa mer så finns deras uppsats här: http://psiexp.ss.uci.edu/research/papers/isi2006.pdf

Ars technia har en artikel här. Eller Google är din vän.

All your n-gram are belong to us

Om någon missat detta och gillar data mining så har nämligen Google för ett tag sedan släppt jättestora n-gram listor som är tillgängliga att köpa(?).

”File sizes: approx. 24 GB compressed (gzip’ed) text files

Number of tokens: 1,024,908,267,229
Number of sentences: 95,119,665,584
Number of unigrams: 13,588,391
Number of bigrams: 314,843,401
Number of trigrams: 977,069,902
Number of fourgrams: 1,313,818,354
Number of fivegrams: 1,176,470,663”

Läs mer här: http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

Varför jag gillar Python

Perl är ett av de språk som jag behärskat längst under min livslängd men på senare tid så har min kärlek för python ökat mer och mer. Detta beror på flera anledningar men främst för att det börjar komma otroligt många moduler som går att använda för att göra undervärk. Exempel på dessa är:

Senså finns det ju såklart massor av andra fördelar, trådningen är superfin och mycket inbyggda bibliotek för diverse prylar återfinns (urllib2).