Architektur von Suchmaschinen: Indexierung

Architektur von Suchmaschinen: Indexierung

Heute werde ich mich in unserer Reihe zur Architektur von Suchmaschinen dem dritten und letzen Aufgabenbereich des Information Retrieval Systems widmen, der Indexierung beziehungsweise der "Schaffung durchsuchbarer Datenstrukturen". Die Aufgabe von Suchmaschinen ist es, dem Nutzer möglichst die Internetseiten anzuzeigen, die zu seinen Suchbegriffen am passendsten und relevantesten sind. In unserer Serie haben wir die Datengewinnung und die Dokumentenanalyse bereits besprochen. Wir haben geklärt, wie es den Suchmaschinen gelingt automatisch Inhalte im Web zu finden und diese dann auch noch zu verstehen. Wir sind auf bestimmte Filter eingegangen, die angewandt werden, um die inhaltlich relevanten Teile einer Website herauszufinden. Und schließlich haben wir erklärt, wie die Suchmaschinen die relevanten Keywords in den einzelnen Dokumenten finden. Diese bisher geschilderten Vorgänge sind...

Architektur von Suchmaschinen: Keywordgewinnung

Der heutige Artikel aus unserer Reihe zur Suchmaschinenarchitektur wird sich erneut dem Information Retrieval System widmen. Im letzten Beitrag zur Wort-und Sprachidentifikation habe ich darauf hingewiesen, dass sich dieses System allgemein in drei Komponenten aufteilen lässt: die Datennormalisierung, die Dokumentenanalyse und die Schaffung durchsuchbarer Datenstrukturen (Indexierung). Auch möchte ich noch einmal an die Frage erinnern, die ich im letzten Artikel gestellt habe und an der sich auch der heutige Beitrag orientiert: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können? Hierzu wurden beim letzten Mal bereits erste Antworten geliefert. Von den sechs Prozessen, die hierbei im Rahmen der Datennormalisierung und der...

Architektur von Suchmaschinen: Wort- und Sprachidentifikation im Information Retrieval System

In unserem ersten Beitrag zur Architektur von Suchmaschinen habe ich bereits erwähnt, dass die meisten Suchmaschinen drei Funktionen oder Funktionsbereiche haben. Das waren erstens die Datengewinnung, zweitens die Datenverwaltung und-Analyse und drittens die Verarbeitung von Suchanfragen. Wir bewegen uns auch weiterhin entlang der Frage: Wie funktionieren Suchmaschinen? In den ersten drei Beiträgen haben Sie erfahren können, wie die Datengewinnung im Webcrawler-System funktioniert. Nun kommen wir zur zweiten Funktion der Suchmaschinen, der Datenverwaltung und Datenanalyse oder zu der Frage: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können? Dies geschieht mit dem sogenannten Information Retrieval System, dessen Aufgaben sich in drei Teile gliedern...