Architektur von Suchmaschinen: Scheduler und Storeserver

Im letzten Beitrag zur Architektur von Suchmaschinen habe ich über die Datenspeicherungsmodule im Webcrawler-System geschrieben, den Dokumentenindex und das Repository. Der heutige Artikel beschäftigt sich natürlich weiterhin mit dem Webcrawler-System, nämlich mit den Verarbeitungsmodulen „Scheduler“ und „Storeserver“.  Ihrer Bezeichnung entsprechend, sind sie für das Verarbeiten und Speichern der Daten und der Informationen zuständig, die sie vom Dokumentenindex und den Crawlern erhalten.

Scheduler

In Wikipedia findet sich sowohl ein Eintrag über einen Datenbank-Scheduler, der „der Verwaltung von Schreib- und Lesezugriffen (sog. Operationen) auf Datenbankobjekten“ dient, als auch eine weitere Definition für einen Prozess-Scheduler, der „die zeitliche Ausführung mehrerer Prozesse in Betriebssystemen regelt.“  Der Scheduler im Webcrawler-System von Suchmaschinen ist ein bisschen von beidem. Er spielt eine sehr zentrale Rolle, da er für die Erweiterung und die Pflege des Datenbestandes zuständig ist. Die nötigen Informationen dazu erhält er vom Dokumentenindex, um dann die Aufträge an die Crawler zu verteilen, die daraufhin die jeweiligen Websites besuchen und die gewonnenen Informationen an den Storeserver weiterleiten. Diese Verwaltungsaufgabe des Schedulers ist maßgeblich für das Funktionieren der Suchmaschinen. Denn damit sorgt er dafür, dass die riesige Datenmenge des Internets bewältigt werden kann. Wenn die Aufträge an die verschiedenen Crawler verteilt werden, so weiß der Scheduler durch ständige Kommunikation mit ihnen immer, welcher Crawler gerade frei ist, sodass die Lastenverteilung optimiert wird.

Storeserver

Der Storeserver hat die Aufgabe die Daten, die er von den Crawlern erhält, zu sichern. Je nachdem welche Informationen er von den Crawlern bekommt, leitet er Änderungen an den Dokumenten bzw. Websites an den Dokumentenindex weiter.

Genauer gesagt hat der Storeserver also drei Aufgaben:

1. Er wertet die Http-Response Header aus, die er von den Crawlern erhält. Bei fehlerhaften HTML-Dokumenten erhält der Storeserver eine Statuscode, mit dem er dann bestimmen kann, ob die URL aufgenommen wird oder nicht.

2. Er aktualisiert den Dokumentenindex. Das heißt, nicht mehr vorhandene Seiten werden gelöscht oder neu indexierte Webseiten hinzugefügt.

3. Er führt eine  „Aufnahmeprüfung“  aller erfolgreich übermittelten Informationen durch.

Alle diese Aufgaben, insbesondere aber die Dritte haben eine große Bedeutung für die Suchmaschinenoptimierung von Internetseiten. Bei dieser Aufnahmeprüfung muss eine Website nämlich bestimmte Filterregeln erfüllen, um aufgenommen zu werden. Wenn hier Fehler gemacht werden, kann es schwierig werden in die Indizes der Suchmaschinen zu gelangen. Das sind grundlegende Regeln, auf die wir im Seosweet Blog schon öfter eingegangen sind. Dass dies mit der Aufnahmeprüfung des Storeservers zu tun hat, haben wir in diesem Zusammenhang nie erwähnt, um nicht unnötig zu verwirren. Wenn Sie diesen Beitrag nun gelesen haben, werden Sie jedoch wissen, wieso es durchaus nützlich ist, über die Abläufe in den Suchmaschinen Bescheid zu wissen.

Die angewandten Filterregeln unterscheiden sich zwar je nach Suchmaschinenbetreiber, es gibt jedoch auch einige wichtige allgemeine Regeln für die Aufnahmeprüfung einer Website im Storeserver.

Dokumenttyp

Da das Webcrawler-System vollautomatisch arbeitet, können Informationen nicht aus allen Medientypen gewonnen werden. Textbasierte Websites sind daher sowieso immer im Vorteil, bei Audio und Videodokumenten wird es für die Suchmaschinen hingegen schwierig diese auszuwerten. Daher werden vom Storeserver nur solche Medientypen akzeptiert, die im Content-Type-Header suchmaschinenorientierte Angaben enthalten.

In früheren Beiträgen sind wir bereits darauf eingegangen, wie  man mit Bildern oder auch Videos auf seiner Seite am besten umgeht.

Dublettenerkennung

Das doppelte Inhalte für die Suchmaschinen ein Problem sind, haben wir auch bereits erläutert.  Der Storeserver vergleicht URLs und ihre Inhalte miteinander, um Dubletten zu erkennen. Werden Dubletten gefunden, kann dies im schlechtesten Fall zur Ablehnung der URL führen.

URL-Filter

Hier werden die URLs auf bestimmte Kriterien überprüft. Zum einen wird nach Begriffen gesucht, die auf der sogenannten Blacklist stehen, also zum Beispiel rassistische oder sexistische Ausdrücke. Wenn diese vorkommen, wird die URL abgelehnt. Die Blacklist unterscheidet sich natürlich bei den verschiedenen Suchmaschinen.

Ein weiterer Punkt auf den bei der Zulassung einer Domain geachtet wird, ist die Anzahl der Subdomains. Wird eine bestimmte Anzahl überschritten, kann auch dies zur Ablehnung führen.

Wie Sie in diesem Beitrag gesehen haben, ist es durchaus hilfreich etwas über die Architektur und Funktionsweise von Suchmaschinen zu wissen, wenn man gefunden werden möchte. Werden die genannten Kriterien im Storeserver erfüllt, so wird das Dokument in das Repository aufgenommen.

David Linden 178 posts

Autor

Man findet mich auf Google+

2 Kommentare

  • [...] einen die Datenspeicherungsmodule, bestehend aus Dokumentenindex und Repository und zum anderen die Verarbeitungsmodule Scheduler und Storeserver. Heute kommen wir nun zu den Protokollmodulen, die aus den einzelnen Crawlern [...]

  • [...] wird. Dazu werden bestimmte Filterregeln angewandt. In unserem Beitrag aus der Serie zum Verarbeitungsmodul mit Scheduler und Storeserver erfahren Sie mehr [...]

Leave a Reply

Rules of the Blog
Do not post violating content, tags like bold, italic and underline are allowed that means HTML can be used while commenting. Lorem ipsum dolor sit amet conceur half the time you know i know what.

Loading Facebook Comments ...

No Trackbacks.