Etikettarkiv: pdfind.com

Indexering av PDF-dokument

Har nu spindlat ihop nästan en halv miljon PDF-dokument under sommaren och arbetet med att indexera dessa och läsa ut relevant information har påbörjats. Här är några punkter på det som jag avser att göra med dessa dokument:

  • Kategorisering – Funderar på att utveckla ett eget kategoriseringsystem som tar fram kategorier/topics och relationer mellan dessa. Har bloggat lite om Topic Modeling tidigare.
  • Visning – Har börjat med en egen PDF-läsare för webben som enbart kräver JavaScript
  • Extrahering av information såsom text, metadata
  • Sökning/indexering – Sphinx
  • WebbGUI – Förmodligen tämligen simpelt
  • Taggar – Automatiskt lägga relavanta taggar till dokumenten, även för ”okända” språk.

Det av ovan som jag har nästan gjort klart är extrahering av information samt visningen. Återkommer så snart det finns något att visa på PDFind.com