Heute werde ich mich in unserer Reihe zur Architektur von Suchmaschinen dem dritten und letzen Aufgabenbereich des Information Retrieval Systems widmen, der Indexierung beziehungsweise der “Schaffung durchsuchbarer Datenstrukturen”.
Die Aufgabe von Suchmaschinen ist es, dem Nutzer möglichst die zu seinen Suchbegriffen passendsten und relevantesten Internetseiten anzuzeigen. In unserer Serie haben wir die Datengewinnung und die Dokumentenanalyse bereits besprochen. Wir haben geklärt, wie es den Suchmaschinen gelingt automatisch Inhalte im Web zu finden und diese dann auch noch zu verstehen. Wir sind auf bestimmte Filter eingegangen, die angewandt werden, um die inhaltlich relevanten Teile einer Website herauszufinden. Und schließlich haben wir erklärt, wie die Suchmaschinen die relevanten Keywords in den einzelnen Dokumenten finden.
Diese bisher geschilderten Vorgänge sind allesamt nötig, um eine vernünftige, durchsuchbare Datenstruktur erstellen zu können.
Wenn man den Begriff Indexierung bei Wikpedia eingibt, erhält man folgende Definition: “Als Indexierung [...] bezeichnet man beim Information Retrieval die Zuordnung von Deskriptoren zu einem Dokument zur Erschließung der darin enthaltenen Sachverhalte.” Dies macht deutlich, dass es sich bei der Indexierung nicht um einen von den weiteren Vorgängen im Webcrawler und Information Retrieval Sytem abgekoppelten Prozess handelt. Genau genommen gehören alle in unserer Reihe zur Architektur von Suchmaschinen beschriebenen Maßnahmen zur Indexierung. In unserer schematischen Darstellung der Architektur von Suchmaschinen halte ich es aber trotzdem für sinnvoll erst jetzt von Indexierung zu sprechen, vor allem auch aus Gründen der Vereinfachung.
Die Hauptaufgabe der Suchmaschinen, relevante Suchergebnisse zu liefern, kann nur erfüllt werden, wenn durchsuchbare Datenstrukturen vorliegen. Im Information Retrieval System wird dies mit Hilfe eines invertierten Dateisystems erreicht.
Das invertierte Dateisystem kann in drei Elemente unterteilt werden:
Wenn jetzt also ein bestimmtes Keyword abgefragt wird, das sich im Index befindet, so führt von dort ein Verweis zu einer invertierten Datei. Hier finden sich wiederum Verweise auf alle Dokumente, die dieses Stichwort enthalten. Diese können dann für die Ergebnisliste herangezogen werden.
Selbstverständlich ist es eher unwahrscheinlich und auch unpraktisch nur nach einem Keyword suchen zu können. Die Suche nach mehreren Stichworten ist heute gängige Praxis in allen Suchmaschinen. Grundlage dafür sind die sogenannten Booleschen Operatoren. Dies sind Verknüpfungen die mit Operatoren wie UND, ODER, NICHT zwischen zwei Keywords erstellt werden können. Diese kann der User nach wie vor selbst in der Suchmaske bestimmen, allerdings laufen diese Operatoren automatisch immer im Hintergrund, wenn mehrere Keywords gleichzeitig eingeben werden. So kann im invertierten Dateisystem anhand der DocIDs in den invertierten Dateien verglichen werden, welche Dokumente zum Beispiel beide Kewords enthalten.
[...] System zu nützlichen Informationen zusammengefasst und ausgewertet. Am Ende dieses Prozesses, der Indexierung, steht eine Datenstruktur, die eine schnelle und im Idealfall passende Antwort auf Suchanfragen [...]
hallo.
seit einiger zeit ist mir klar, daß ein mitgrund dafür, daß irrelevante inhalte in den SERPs ganz vorne stehen, im information retrieval liegt. folgender blogartikel enthält viele kriterien für qualität und popularität :
sensiblochamaeleon.blogspot.com/2010/05/echte-wissenschaft-und-objektive.html .
außerdem weise ich auf meine auseinandersetzung mit der SEO-ethik hin : sensiblochamaeleon.wordpress.com/2009/09/08/seoethik-heiligt-der-zweck-die-mittel/
dort geht es auch darum, inwiefern SEO pures marketing bleibt oder ein teilbereich der wissenschaft information retrieval sein kann
mfG
[...] haben nach wie vor Schwierigkeiten wenn es um Seiteninhalte geht, die kein Text sind. Das hat sich zwar in den letzten Jahren schon abgeschwächt – zum Beispiel verfügt Google [...]