Architektur von Suchmaschinen: Dokumentenindex

Als wir den Seosweet Blog gestartet haben, sind wir zu Beginn auf die grundsätzliche Frage eingegangen: Was ist eine Suchmaschine? In diesem und in einigen weiteren Beiträgen wird es nun um die Architektur von Suchmaschinen gehen, also grob gesagt, um deren Aufbau. Im Hintergrund dazu steht die Frage: Wie funktionieren Suchmaschinen? Um den Usern möglichst gute, komplette und aktuelle Ergebnisse liefern zu können, müssen riesige Datenmengen des Internets gesammelt werden, um sie dann zu analysieren und den Usern die richtigen Informationen zu den passenden Suchphrasen bereitzustellen. Von diesen drei Funktionen der Datengewinnung, der Datenanalyse und der Verarbeitung von Suchanfragen werden wir in diesem und den kommenden Beiträgen vor allem die erste Funktion der Datengewinnung betrachten.

Das Webcrawler-System

Wie schaffen es die Suchmaschinen, trotz ständig veränderter Websites und trotz eines stark wachsenden Datenvolumens, den „Überblick“ über das Internet zu behalten? Wie schaffen sie es, sich die ganzen relevanten Daten zu beschaffen und aktuell zu halten? Wir werden das nicht anhand der Besonderheiten einer einzelnen Suchmaschine erläutern. Das geht, da die wichtigsten Suchmaschinen alle mit dem sogenannten  Webcrawler- oder Webrobot-System zur Datengewinnung arbeiten. In diesem System beschaffen sich die Suchmaschinen die relevanten Informationen mit Hilfe von Robots bzw. Crawlern selbst, was sie zum Beispiel von Webkatalogen unterscheidet.

Die wichtigsten Komponenten des Webcrawler-Systems sind:

  • Dokumentenindex
  • Scheduler
  • Crawler
  • Storeserver
  • Repository

Auf diese fünf Komponenten werden wir in den nächsten Beiträgen eingehen.

Der Dokumentenindex

Der Dokumentenindex gehört zusammen mit dem Repository zum sogenannten Datenspeicherungsmodul, einer weiteren Zusammenfassung der fünf Komponenten des Webcrawler-Systems. Er wird gelegentlich auch als URL-Datenbank bezeichnet, ist jedoch viel mehr als das.  Der Dokumentenindex enthält Informationen zu allen in der Datenbank gespeicherten Dokumenten. Diese Informationen umfassen unter anderem:

  • die Länge des Dokuments
  • das Erstellungsdatum (sowie Änderungszeitpunkte)
  • den Dokumententyp
  • die Seitentitel
  • Informationen aus dem Meta-Tags
  • Statusinformationen über den Server
  • den Hostname und die IP-Adresse

Die Dokumente erhalten eine eindeutige Bezeichnung, die sogenannte DocID, wonach sie auch sortiert werden. Eine wichtige Funktion des Dokumentenindex ist auch, dass sich mit seiner Hilfe einzelne Dokumente abgleichen lassen. Dies funktioniert mit Hilfe der Checksumme. Sie wird für jedes Dokument mit Hilfe von Algorithmen, die die Suchmaschinenbetreiber selbst entwickeln, berechnet. Eine Änderung der Seite führt daher auch zu einer Änderung der Checksumme. Identische Dokumente haben folglich die selbe Checksumme, sodass sich duplicate Content hier feststellen lässt. Somit hilft der Dokumentenindex auch dabei, Platz für das Repository zu sparen.

Repository

Wie erwähnt gehört das Repository, ebenso wie der Dokumentenindex, zum Datenspeichermodul. Wenn allerdings der Dokumentenindex am Anfang steht, so bildet das Repository das Ende der Datengewinnung (ein Schaubild hierzu finden Sie hier). Im Repository werden nämlich die Dokumente, also Kopien der Webseiten, in der Regel im HTML Code gespeichert – und das mitsamt der im Dokumentenindex gespeicherten Informationen und nach DocID geordnet.

David Linden 178 posts

Autor

Man findet mich auf Google+

6 Kommentare

Leave a Reply

Rules of the Blog
Do not post violating content, tags like bold, italic and underline are allowed that means HTML can be used while commenting. Lorem ipsum dolor sit amet conceur half the time you know i know what.

Loading Facebook Comments ...

No Trackbacks.