Indexering av PDF-dokument

Har nu spindlat ihop nästan en halv miljon PDF-dokument under sommaren och arbetet med att indexera dessa och läsa ut relevant information har påbörjats. Här är några punkter på det som jag avser att göra med dessa dokument:

  • Kategorisering – Funderar på att utveckla ett eget kategoriseringsystem som tar fram kategorier/topics och relationer mellan dessa. Har bloggat lite om Topic Modeling tidigare.
  • Visning – Har börjat med en egen PDF-läsare för webben som enbart kräver JavaScript
  • Extrahering av information såsom text, metadata
  • Sökning/indexering – Sphinx
  • WebbGUI – Förmodligen tämligen simpelt
  • Taggar – Automatiskt lägga relavanta taggar till dokumenten, även för ”okända” språk.

Det av ovan som jag har nästan gjort klart är extrahering av information samt visningen. Återkommer så snart det finns något att visa på PDFind.com

7 reaktioner på ”Indexering av PDF-dokument

  1. Hej Jonas!

    Låter som ett väldigt spännande projekt – skall definitivt testa din tjänst så fort du har något tillgängligt för testning!

    Jag har själv ett projekt som påminner någorlunda om ditt. Har under sommaren meckat ihop en nischad sökmotor som enbart indexerar artiklar från artikelarkiv (http://www.contentsate.com) med hjälp av crawlers skrivna i ruby och med sphinx som underliggande sökmotor.

    Vad programmerar du i? Python? Php?

    Sebastian Johnssons senast blogginlägg..Fem entreprenörskapstips

  2. Sebastian, Gillade ContentSate.com ! Jag skriver det mesta i PHP och Python. Crawlern är dock skriven i C för att hinna besöka 10M sidor om dagen (googla på ”larbin”). Sphinx är nästan som guds gåva! ;)

  3. Anders, Jag hade som mål tidigare i år att hinna med ett projekt per månad men nu när jag har hållt på med samma projekt under 4 månader (inte pdf-grejjen)

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *