Architektur von Suchmaschinen: Scheduler und Storeserver

Architektur von Suchmaschinen: Scheduler und Storeserver

Im letzten Beitrag zur Architektur von Suchmaschinen habe ich über die Datenspeicherungsmodule im Webcrawler-System geschrieben, den Dokumentenindex und das Repository. Der heutige Artikel beschäftigt sich natürlich weiterhin mit dem Webcrawler-System, nämlich mit den Verarbeitungsmodulen "Scheduler" und "Storeserver".  Ihrer Bezeichnung entsprechend, sind sie für das Verarbeiten und Speichern der Daten und der Informationen zuständig, die sie vom Dokumentenindex und den Crawlern erhalten. Scheduler In Wikipedia findet sich sowohl ein Eintrag über einen Datenbank-Scheduler, der "der Verwaltung von Schreib- und Lesezugriffen (sog. Operationen) auf Datenbankobjekten" dient, als auch eine weitere Definition für einen Prozess-Scheduler, der "die zeitliche Ausführung mehrerer Prozesse in Betriebssystemen regelt."  Der Scheduler im Webcrawler-System von Suchmaschinen ist ein bisschen von beidem. Er spielt eine sehr zentrale Rolle, da er...