Etikettarkiv: Data mining

OpenCalais – Analys av text

Detta är inlägg nummer två i en serie av blogginlägg där jag testar olika API:er för att automatiskt tagga text.

Första gången jag hörde talas om OpenCalais var under det projekt som Martin Källström och gänget från Twingly genomförde under det första 24hbc (vi delade bord).

Min generella uppfattning är att OpenCalais verkar ha fler år på nacken än AlchemyAPI och vara mer genomtestat.

Efter att införskaffat en API-nyckel så laddar jag hem den PHP-klass som Dan Grossman har skrivit. Jag hackar om den exempelkod som följer med (octest.php) att se ut enligt följande:

<?php

 require('opencalais.php');
 $oc = new OpenCalais("xxx"); // Byt ut nyckeln

 $entities = $oc->getEntities(file_get_contents("/home/je/exempeltext.txt"));

 foreach ($entities as $type => $values) {
   foreach ($values as $entity) {
     print "$entity, ";
   }
 }
 print "\n";

?>

Nyckelorden som kommer fram ur texten är följande:

US National Institute of Standards and Technology, California, PALO ALTO, cellular telephone, www.cellcrypt.com, gateway applications, US National Institute of Standards and Technology,

Här ser vi att antalet hittade taggar är 7 till antalet istället för 14 som AlchemyAPI visar. OpenCalais verkar missa intressanta taggar såsom ”FIPS 140-2” och AlchemyAPI verkar missa ”US National Institute of Standards and Technology”.

Testa även deras viewer som visar lite mer vad de är kapabla till. Samt så tillhandahåller även de ett WordPress-plugin.

Vad har jag på gång?

Jo det händer en hel del nu och mina idéer på nya projekt bara sprudlar. Men med rätt motivation och fokusering så försöker jag iallfall slutföra de projekt som jag startat:

  • Två sökmotorer med speciell inriktning där en av dem är helt unik i sverige och eventuellt i världen på den information som presenteras
    • Den sistnämnda kommer att ha premiär inom två veckor om jag hinner fixa några buggar
  • En unik sökmotor för webben med lite speciella saker som Google inte fixar. Ta patent?
  • Starta ett företag som stöttar dessa projekt med sådant som jag inte fixar som privatperson
  • Köpt ett antal trevliga domäner

Ja listan kan göras lång.

Sitter och funderar också på hur jag kan tjäna pengar på några av dessa projekt samt hur mina stackars servrar skall klara av all information jag avser att trycka in i dem. Men det är ju en utmaning också och sådant gillar jag.