Etikettarkiv: ec2

Bloggsök flyttad till molnet

Sakta men säkert så flyttar jag mina bloggprojekt till molnet och Amazon EC2 + RDS. Det rör sig först och främst om bloggsökmotorn Bloggz.se där jag även kommer att öppna upp för ett bloggsök-API med JSON + XML. Fritt för privatpersoner att använda och en mindre summa för kommersiella projekt.

Bloggz var mitt första projekt som skapades år 2007 och har sedan dess indexerat den svenska bloggosfären. Tjänster som använder sig av bloggdata är exempelvis BloggVärde, BloggNytt och BloggBilder.

Jag håller även på att komma ikapp antalet bloggar som är indexerade:

Crawler 2.0

Som många vet så har jag två tjänster som visar information om domäner, nämligen DomainDB.com samt DomainTool.se. Jag var i behov av att uppdatera den informationen som fanns så det var dags att starta den crawler som jag skapat för några år sedan.

Crawlern (eller webcrawler, spider som det också heter) var tämligen ouppdaterad så jag tog tillfället i akt och använder nu enbart Redis. Tidigare så använde jag MySQL + Sphinx:

  • db0 – Kö för domäner som skall besökas
  • db1 – Koppling mellan namnserver och IP-nummer
  • db2 – Koppling mellan www.domän och IP-nummer
  • db3 – Sidtitlar

Db0 rensas och fylls på ungefär varannan dag med runt 25 miljoner nya domäner som besöks så efter cirka en vecka så har jag besökt 100 miljoner domäner. För server-kapacitet så använder jag Amazon EC2 och deras spot instances som är lite billigare och utnyttjar oanvända EC2-instanser.

Amazon Elastic Compute Cloud (Amazon EC2)

Läste nyligen på Slashdot att Amazons tjänst för att enkelt hyra datorkapacitet på deras kluster per timme nu är publikt för allmänheten att registrera sig. Tjänsten som heter EC2 är väl använt av Web 2.0 företag och förmodligen en typ av tjänst som vi kommer få se mer av i framtiden.

Nytt är också att de har olika typer av prissättningar beroende på hur mycket kapacitet du behöver:

$0.10 – Small Instance (Default)

    1.7 GB of memory, 1 EC2 Compute Unit (1 virtual core with 1 EC2 Compute Unit), 160 GB of instance storage, 32-bit platform

$0.40 – Large Instance

    7.5 GB of memory, 4 EC2 Compute Units (2 virtual cores with 2 EC2 Compute Units each), 850 GB of instance storage, 64-bit platform

$0.80 – Extra Large Instance

    15 GB of memory, 8 EC2 Compute Units (4 virtual cores with 2 EC2 Compute Units each), 1690 GB of instance storage, 64-bit platform

Tänkte ta mig tid någon gång framöver och testa EC2. Berätta gärna om du har testat!

Vidare läsning om Ec2: