Har nu spindlat ihop nästan en halv miljon PDF-dokument under sommaren och arbetet med att indexera dessa och läsa ut relevant information har påbörjats. Här är några punkter på det som jag avser att göra med dessa dokument:
- Kategorisering – Funderar på att utveckla ett eget kategoriseringsystem som tar fram kategorier/topics och relationer mellan dessa. Har bloggat lite om Topic Modeling tidigare.
- Visning – Har börjat med en egen PDF-läsare för webben som enbart kräver JavaScript
- Extrahering av information såsom text, metadata
- Sökning/indexering – Sphinx
- WebbGUI – Förmodligen tämligen simpelt
- Taggar – Automatiskt lägga relavanta taggar till dokumenten, även för ”okända” språk.
Det av ovan som jag har nästan gjort klart är extrahering av information samt visningen. Återkommer så snart det finns något att visa på PDFind.com
Tyckte väl att du varit lite oproduktiv på sistone ;-)
Christian Rudolfs senast blogginlägg..Big Bengt!
Christian, Om du bara visste vad som föregår ;)
Hej Jonas!
Låter som ett väldigt spännande projekt – skall definitivt testa din tjänst så fort du har något tillgängligt för testning!
Jag har själv ett projekt som påminner någorlunda om ditt. Har under sommaren meckat ihop en nischad sökmotor som enbart indexerar artiklar från artikelarkiv (http://www.contentsate.com) med hjälp av crawlers skrivna i ruby och med sphinx som underliggande sökmotor.
Vad programmerar du i? Python? Php?
Sebastian Johnssons senast blogginlägg..Fem entreprenörskapstips
Kul projekt. Du och Ted, jag förstår inte hur ni hinner med. Hur som. Spännande!
Sebastian, Gillade ContentSate.com ! Jag skriver det mesta i PHP och Python. Crawlern är dock skriven i C för att hinna besöka 10M sidor om dagen (googla på ”larbin”). Sphinx är nästan som guds gåva! ;)
Anders, Jag hade som mål tidigare i år att hinna med ett projekt per månad men nu när jag har hållt på med samma projekt under 4 månader (inte pdf-grejjen)
Tack för tipset om larbin Jonas!
Skall sätta mig ner en dag nu i helgen och se över om jag kan porta mina crawlers till larbin istället.
Ja, Sphinx är riktigt grymt – kommer att ha det som bas för väldigt många av mina kommande projekt.
Sebastian Johnssons senast blogginlägg..Steve Jobs – The Greatest Second Act In The History Of Business