Indexering av PDF-dokument

2008-09-09 – 17:30

Har nu spindlat ihop nästan en halv miljon PDF-dokument under sommaren och arbetet med att indexera dessa och läsa ut relevant information har påbörjats. Här är några punkter på det som jag avser att göra med dessa dokument:

  • Kategorisering – Funderar på att utveckla ett eget kategoriseringsystem som tar fram kategorier/topics och relationer mellan dessa. Har bloggat lite om Topic Modeling tidigare.
  • Visning – Har börjat med en egen PDF-läsare för webben som enbart kräver JavaScript
  • Extrahering av information såsom text, metadata
  • Sökning/indexering – Sphinx
  • WebbGUI – Förmodligen tämligen simpelt
  • Taggar – Automatiskt lägga relavanta taggar till dokumenten, även för ”okända” språk.

Det av ovan som jag har nästan gjort klart är extrahering av information samt visningen. Återkommer så snart det finns något att visa på PDFind.com

Gillar du detta inlägg? Sharing is caring:
Bloggy Pusha Facebook TwitThis Maila artikeln! Skriv ut artikeln!
Du bör också läsa något av följande inlägg:
  1. 7 Responses to “Indexering av PDF-dokument”

  2. Firefox 3.0.1Windows Vista

    Tyckte väl att du varit lite oproduktiv på sistone ;-)

    Christian Rudolfs senast blogginlägg..Big Bengt!

    Skrivet av Christian Rudolf, Sep 9, 2008

  3. Firefox 3.0.1Windows XP

    Christian, Om du bara visste vad som föregår ;)

    Skrivet av Jonas, Sep 9, 2008

  4. Firefox 3.0.1MacIntosh

    Hej Jonas!

    Låter som ett väldigt spännande projekt – skall definitivt testa din tjänst så fort du har något tillgängligt för testning!

    Jag har själv ett projekt som påminner någorlunda om ditt. Har under sommaren meckat ihop en nischad sökmotor som enbart indexerar artiklar från artikelarkiv (http://www.contentsate.com) med hjälp av crawlers skrivna i ruby och med sphinx som underliggande sökmotor.

    Vad programmerar du i? Python? Php?

    Sebastian Johnssons senast blogginlägg..Fem entreprenörskapstips

    Skrivet av Sebastian Johnsson, Sep 10, 2008

  5. Firefox 3.0.1MacIntosh

    Kul projekt. Du och Ted, jag förstår inte hur ni hinner med. Hur som. Spännande!

    Skrivet av Anders, Sep 10, 2008

  6. Firefox 3.0.1Windows XP

    Sebastian, Gillade ContentSate.com ! Jag skriver det mesta i PHP och Python. Crawlern är dock skriven i C för att hinna besöka 10M sidor om dagen (googla på ”larbin”). Sphinx är nästan som guds gåva! ;)

    Skrivet av Jonas, Sep 10, 2008

  7. Firefox 3.0.1Windows XP

    Anders, Jag hade som mål tidigare i år att hinna med ett projekt per månad men nu när jag har hållt på med samma projekt under 4 månader (inte pdf-grejjen)

    Skrivet av Jonas, Sep 10, 2008

  8. Firefox 3.0.1MacIntosh

    Tack för tipset om larbin Jonas!

    Skall sätta mig ner en dag nu i helgen och se över om jag kan porta mina crawlers till larbin istället.

    Ja, Sphinx är riktigt grymt – kommer att ha det som bas för väldigt många av mina kommande projekt.

    Sebastian Johnssons senast blogginlägg..Steve Jobs – The Greatest Second Act In The History Of Business

    Skrivet av Sebastian Johnsson, Sep 16, 2008

Skriv en kommentar

CommentLuv badge