Kategoriarkiv: Bloggosfären

Skapa din egen bloggsökmotor

Ett av mina första webbprojekt var den svenska bloggsökmotorn Bloggz.se som jag skapade i början av 2007. Med hjälp av den erfarenheten och kunskapen så tänkte nu gå igenom hur du som utvecklare lätt och enkelt kan skapa din egen bloggsökmotor med hjälp av php- eller python-kunskap.

Steg 1 – Hitta bloggar

Först och främst så måste vi ju hitta URL:er till bloggar och sedan måste vi lista ut om de bloggar om svenska eller ej. Så mitt tips är att börja genom att ladda hem och parsa följande fil från Google (var 10’de minut exempelvis):

http://blogsearch.google.com/changes.xml

Denna fil är på ca 12 MB och innehåller ca 71 000 bloggar, varje rad ser ut på ungefär följande sätt:

<weblog name=”Filmklipp hos Filmpasset.se” url=”http://filmpasset.se/” rssUrl=”” when=”2″ sourceIp=”72.233.56.145″ />

Steg 2 – Parsa bloggar

Vi har nu gigantiska listor med bloggar och det vi måste göra nu är att besöka dessa bloggar och hämta ut relevant information och här finns det två viktiga komponenter:

  • Hitta RSS-feeden på bloggen
  • Parsa RSS-feeden på bloggen

Det kan låta trivialt men det finns miljoner olika kombinationer på ovan två komponenter. Jag kan rekommendera Feedfinder samt Feedparser (från svn).

Det du gör nu är att du skapar en databas med URL:er till alla bloggar och fyller sedan på med de RSS-url’er som du hittar med hjälp av Feedfinder, detta arbete kan trådas med fördel. Se på Pythons queue

Steg 3 – Klassificera språk

Det vanligaste sättet att klassificera språk är ngram (bi/tri-gram) och jag använder mig av följande implementation: ngram.py som är skriven av Thomas Mangin. Detta måste så klart göras efter du har hämtat hem de inlägg som hittas på bloggen. Glöm inte att spara undan HTTP-headers såsom last-modified och etag som gör att du inte behöver besöka bloggen i onödan om den ej är uppdaterad.

Steg 4 – Gör allt sökbart

Nu när du har inlägg och bloggar i en databas så behöver du bara göra allt detta sökbart, snabbt. Och då kan jag rekommendera Sphinxsearch där du gör en main och ett delta-index som uppdateras kanske en gång i veckan vs. varje timme beroende på hur mycket information som ska indexeras.

Och nu behöver du bara göra ett trevligt webb-gui till databasen och Sphinx-indexet.

Överkurs

Det du kan tänka på också när du parsar bloggar är att spara undan länkar som du hittar i inläggen för att sedan använda denna information för att vikta sökresultet samt hitta fler bloggar att lägga till. Jag sparar exempelvis undan denna information och använder den på bl.a BloggBilder.se och BloggVärde.se (och snart kanske BloggAnalys.se)

Kuriosa

Utifrån sourceIp i changes.xml så pingar dessa Google flest gånger:

13674 66.197.201.21
12006 59.40.198.153
4875 72.233.56.144
4807 72.233.56.156
4719 72.233.56.145
2070 66.207.161.106
2056 221.186.141.201
1785 202.108.35.60
906 124.42.34.18
577 74.125.44.136
544 69.59.185.172
533 62.129.193.27
532 69.10.46.130
491 91.121.157.178
360 221.186.141.206
354 219.239.93.69
325 208.110.66.194
281 89.161.143.129
267 82.96.94.35
259 219.94.203.126
  13674 66.197.201.21 colo4.socialknowledge.net.

  12006 59.40.198.153 153.198.40.59.broad.sz.gd.dynamic.163data.com.cn.

   4875 72.233.56.144 wordpress.org

   4807 72.233.56.156 wordpress.org

   4719 72.233.56.145 wordpress.org

   2070 66.207.161.106 HostKitty Internet Services

   2056 221.186.141.201 idcgw.cyberz.co.jp.

   1785 202.108.35.60 ChinaUnicom

Klart.se, Muminmuggar, Synonymer.se, Twingly Shinobi

Den förre VD:n för Blocket startar upp Klart.se som är en tjänst där du lätt och enkelt kan se vädret, med på tåget är även John Pohlman (flickr). Sajten liknar VackertVader.se som Tomas och Axel skapade under 24hbc

**

Joel och Anton börjar att sälja coola Muminmuggar på Muminmuggar.se

**

Sinovum Media köper synonymer.se av Adweb AB/TBH.se och köpeskilllingen uppgick till 305 002 kr. Se bl.a på WN och Internetbrus.

**

Reklam för ’Webbredaktörens handbok’ av Fredrik Wackå gick ut i E-postreklam som uppfattades ”lite olyckligt”. E-posten skickades ut av Urban Lindstedt till E-postadresser som fanns i Infoo.se registret (fd. katalogen.sunet.se). Se mer på WN.

**

Ted öppnar ett API för sina kartor och Mashup.se är snabba med att skriva utförligt om detta API.

**

Twingly meddelar att något som kallas Shinobi lanseras den 1:a Oktober. Paula Marttila som bloggar på ArcticStartup är snabb på att skriva om detta och gissar på att det blir en tjänst:

One can only guess but trying to read between the lines I’d expect Twingly to connect to all my social services, rank my connections and deliver me my “Must read” content automatically. A kind of a mix of what Topsy and DailyPerfect are doing?

Visualisering av den svenska bloggosfären

Jag har länge haft ett projekt som bara legat och samlat damm så jag har nu tagit mig i kragen och fixat till det lite så att det åtminstone når upp till något som kan kallas för en alfaversion. Så för Er alla visualiserings och analysnördar där ute kolla in BloggAnalys.se

Ungefär så här kan det se ut för Utvbloggen.se gällande inlänkar:

blogganalys

En snabb FAQ:

Q: Är länkarna i realtid?

A: Nej inte ännu. Urvalet av länkar baseras på ca 3 miljoner svenska blogglänkar. Jag har 14 371 872 st länkar i dagsläget i en databas men pga lite problem med indexeringen av alla länkar så får 3 miljoner duga för stunden.

Q: Det ser inte ut att stämma, jag har ju fler inlänkar?!

A: Se svaret på föregående fråga

Q: Vad händer härnäst?

A: Om ett år eller så, så kanske jag släpper en ny alfaversion 0.2

Q: Varför inga trevligare färger?

A: Kommer i nästa version

Newsmill, Blogg.se, Iconvert, Google Chrome

Simon Sundén slutar på Online Services och startar istället företaget Iconvert tillsammans med Erik Nettelbrandt. Läs mer på Iconvert.se eller Joinsimon.se

**

Bloggplattformen blogg.se som numera ägs av Allers har bytt utseende på sin förstasida Blogg.se, bra eller anus? Själv tycker jag att sidan har på tok för mycket text och är rörig. Även BetaAlfa skriver om detta.

**

Newsmill verkar vara en ny slags Sourze där användarna själva lägger upp material och tycker till. Verkar vara mycket skriverier om denna satsning, läs exempelvis  DN: Debattsajt nära 100.000 läsare. Bakom sajten står bl.a två föredetta Expressen-människor PM Nilsson och Leo Lagercrantz samt så står Bonnier för pengar.

**

Google har släppt sin nya webbläsare Chrome som baseras på WebKit som är en OpenSource html/javascript-motor från Apple. WebKit används exempelvis av webbläsaren Safari.

Läs mer på Google Bloggen eller IDG.

MyCube, Adsense for feeds, uTorrent

Johan Staël von Holstein storsatsar i ett nytt projekt som ska gå under namnet MyCube. Disruptive skriver så klart mer om denna intressanta nyhet.

**

Den grymmaste torrent-klienten uTorrent har nu kommit i en efterlängtad 1.8 version. Visste du att uTorrent är skapad av en svensk? Ludvig (Ludde) Strigeus skapade klienten och företaget uTorrent AB som såldes till amerikanska BitTorrent, Inc år 2006. Ludvig verkar numera jobba på Spotify och när vi endå är inne på Spotify så kan nämnas att de numera testar att köra reklam som inte verkar vara allt för behaglig.

**

Nu kan du använda Google Adsense för att visa reklam i RSS-strömmar, mer exakt genom Feedburner. Dock är inte alla direkt nöjda med detta.

MrGreen, Totiki, Blogganalys, Bookback och USA

Är för tillfället borta i staterna och lökar vilket gör att det inte blir så mycket gjort, hinner knappt blogga. Svinkallt inomhus pga all AC men ack så skönt vid poolkanten.

Men ska försöka skriva lite nytt som hänt:

WordPress 2.6

Nu har äntligen blogg-verktyget WordPress släppts i en stabil 2.6-utgåva, med en mängd nya fräsiga funktioner och förbättringar:

  • Ordräknare vid postning
  • Bildbeskrivningar
  • Masshatering av tillägg
  • En genomarbetning av bildhanteringen
  • Drag-and-drop ordnare för gallerier
  • Notifikationsbubbla för nya uppdateringar på tillägg
  • Fler val för standardavatarer.
  • Uppladdningar i fullskärmsläge.
  • Fjärrpublicering via XML-RPC
  • Full SSL support i kärnan, och möjligheten att tvinga SSL för säkerheten.
  • Man kan nu ha tusentals sidor och kategorier utan att panellayouten bryts.
  • Möjligheten att flytta din wp-config och wp-content mappar
  • Välja flera checkboxar med “shift-klick.”
  • Välj mellan flash-uppladdaren och den klassiska varianten.
  • Nya säkerhetsuppdateringar
  • Bättre version av TinyMCE, jQuery, och jQuery UI.

Läs mer hos WP-Support.se

Seedcamp, TradeDoubler, DNS, iPhone och Geolokalisering

Bloggen Disruptive.nu tipsar om att ni som har webbstartups kan söka till SeedCamp 2008. Ansökan hittas här och ska vara inne före 10’de Augusti.

**

Åtskilliga bloggare är lite småsura på TradeDoubler och Travelpartner som snuvar (av misstag) annonsörer på pengar. Magnus Lundin, vVD och grundare för TravelPartner förklarar att något har varit fel.

**

Dan Kaminsky hittar en läskig bugg relaterad till designen av DNS-protokollet vilket gör att det är möjligt att styra om godtycklig domän/hostnamn.

**

Den ”inofficiella” iPhone software 2.0 går nu att köra: http://lifehacker.com/398280/iphone-20-software-update-unofficially-available

**

Var är festen? Nu behöver du inte fundera längre på vart festen är: http://www.primidi.com/2008/06/29.html