Architektur von Suchmaschinen: Crawler

Architektur von Suchmaschinen: Crawler

In den beiden vorhergehenden Artikeln zur Architektur von Suchmaschinen sind wir bereits auf zwei Module des Webcrawler Systems eingegangen. Das waren zum einen die Datenspeichermodule, bestehend aus Dokumentenindex und Repository und zum anderen die Verarbeitungsmodule Scheduler und Storeserver. Heute kommen wir nun zu den Protokollmodulen, die aus den einzelnen Crawlern bestehen. Die Crawler sind für die modernen Suchmaschinen von zentraler Bedeutung. Es kommt ja auch nicht von ungefähr, dass sie namensgebend für das Webcrawler-System sind.  Sie sind das einzige Element der Suchmaschinen, das außerhalb ihres Systems arbeitet; sie stellen sozusagen die Verbindung nach außen dar. Das macht sie doppelt bedeutend, zum einen für die Suchmaschinen selbst, denn sie sind auf ein gutes Funktionieren ihrer Crawler angewiesen und darauf, dass diese...

Architektur von Suchmaschinen: Dokumentenindex

Als wir den Seosweet Blog gestartet haben, sind wir zu Beginn auf die grundsätzliche Frage eingegangen: Was ist eine Suchmaschine? In diesem und in einigen weiteren Beiträgen wird es nun um die Architektur von Suchmaschinen gehen, also grob gesagt, um deren Aufbau. Im Hintergrund dazu steht die Frage: Wie funktionieren Suchmaschinen? Um den Usern möglichst gute, komplette und aktuelle Ergebnisse liefern zu können, müssen riesige Datenmengen des Internets gesammelt werden, um sie dann zu analysieren und den Usern die richtigen Informationen zu den passenden Suchphrasen bereitzustellen. Von diesen drei Funktionen der Datengewinnung, der Datenanalyse und der Verarbeitung von Suchanfragen werden wir in diesem und den kommenden Beiträgen vor allem die erste Funktion der Datengewinnung betrachten. Das Webcrawler-System Wie schaffen es...