Architektur von Suchmaschinen: Crawler

Architektur von Suchmaschinen: Crawler

In den beiden vorhergehenden Artikeln zur Architektur von Suchmaschinen sind wir bereits auf zwei Module des Webcrawler Systems eingegangen. Das waren zum einen die Datenspeichermodule, bestehend aus Dokumentenindex und Repository und zum anderen die Verarbeitungsmodule Scheduler und Storeserver. Heute kommen wir nun zu den Protokollmodulen, die aus den einzelnen Crawlern bestehen. Die Crawler sind für die modernen Suchmaschinen von zentraler Bedeutung. Es kommt ja auch nicht von ungefähr, dass sie namensgebend für das Webcrawler-System sind.  Sie sind das einzige Element der Suchmaschinen, das außerhalb ihres Systems arbeitet; sie stellen sozusagen die Verbindung nach außen dar. Das macht sie doppelt bedeutend, zum einen für die Suchmaschinen selbst, denn sie sind auf ein gutes Funktionieren ihrer Crawler angewiesen und darauf, dass diese...