Architektur von Suchmaschinen: Keywordgewinnung

Architektur von Suchmaschinen: Keywordgewinnung

Der heutige Artikel aus unserer Reihe zur Suchmaschinenarchitektur wird sich erneut dem Information Retrieval System widmen. Im letzten Beitrag zur Wort-und Sprachidentifikation habe ich darauf hingewiesen, dass sich dieses System allgemein in drei Komponenten aufteilen lässt: die Datennormalisierung, die Dokumentenanalyse und die Schaffung durchsuchbarer Datenstrukturen (Indexierung). Auch möchte ich noch einmal an die Frage erinnern, die ich im letzten Artikel gestellt habe und an der sich auch der heutige Beitrag orientiert: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können? Hierzu wurden beim letzten Mal bereits erste Antworten geliefert. Von den sechs Prozessen, die hierbei im Rahmen der Datennormalisierung und der...