Topic Modeling

Topic Modeling är ett uttryck som kom 2006 i samband med att två forskare på University of California-Irvine analyserade 330 000topic_modeling.PNG nyhetsartiklar för att sedan automatiskt göra rubriker till grupper av ord.

Denna typ av text mining listar ut att om orden ”zidane”, ”germany” samt ”football” förekommer i en text så är rubriken troligtvis Fotbolls-VM 2006. Smart va?

”Statistical language models can learn relationships between
topics discussed in a document collection and persons, organizations and
places mentioned in each document. We present a novel combination
of statistical topic models and named-entity recognizers to jointly analyze
entities mentioned (persons, organizations and places) and topics
discussed in a collection of 330,000 New York Times news articles. We
demonstrate an analytic framework which automatically extracts from a
large collection: topics; topic trends; and topics that relate entities.”

Om du vill läsa mer så finns deras uppsats här: http://psiexp.ss.uci.edu/research/papers/isi2006.pdf

Ars technia har en artikel här. Eller Google är din vän.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *