Architektur von Suchmaschinen – Review

blog-1-img-2372
23 Aug

Architektur von Suchmaschinen – Review

Im Herbst 2011 habe ich mir für die Serie, um die es heute geht, so viel Mühe gegeben, dass es sich durchaus lohnt sie noch einmal "Review" passieren zu lassen. Schlechte Wortspiele waren damals übrigens nicht Teil der Serie, vielmehr handelte es sich dabei um ein sehr grundlegendes Thema für die Suchmaschinenoptimierung. Denn es ging generell darum, wie Suchmaschinen funktionieren. Dementsprechend hieß die Serie dann...

Architektur von Suchmaschinen: Suchanfragen verarbeiten

Heute komme ich zum letzten Teil unserer Reihe "Architektur von Suchmaschinen". Von den drei Funktionen der Suchmaschinen - der Datengewinnung, der Datenverwaltung und Analyse und der Verarbeitung von Suchanfragen - habe ich bisher die ersten beiden Funktionen behandelt. Mit Hilfe des sogenannten Webcrawler-Systems gewinnen die Suchmaschinen die für sie notwendigen Daten. Diese werden dann im Information Retrieval System zu nützlichen Informationen zusammengefasst und ausgewertet. Am Ende dieses Prozesses, der Indexierung, steht eine Datenstruktur, die eine schnelle und im Idealfall passende Antwort auf Suchanfragen möglich machen kann. Die Anfragen werden vom Nutzer gestellt, innerhalb der Suchmaschine ist es dann der Query-Prozessor, der für die Verarbeitung der Benutzeranfrage zuständig ist und somit die dritte Funktion von Suchmaschinen erfüllt. Der Query-Prozessor Der Query ist erstens dafür...

Architektur von Suchmaschinen: Indexierung

Heute werde ich mich in unserer Reihe zur Architektur von Suchmaschinen dem dritten und letzen Aufgabenbereich des Information Retrieval Systems widmen, der Indexierung beziehungsweise der "Schaffung durchsuchbarer Datenstrukturen". Die Aufgabe von Suchmaschinen ist es, dem Nutzer möglichst die Internetseiten anzuzeigen, die zu seinen Suchbegriffen am passendsten und relevantesten sind. In unserer Serie haben wir die Datengewinnung und die Dokumentenanalyse bereits besprochen. Wir haben geklärt, wie es den Suchmaschinen gelingt automatisch Inhalte im Web zu finden und diese dann auch noch zu verstehen. Wir sind auf bestimmte Filter eingegangen, die angewandt werden, um die inhaltlich relevanten Teile einer Website herauszufinden. Und schließlich haben wir erklärt, wie die Suchmaschinen die relevanten Keywords in den einzelnen Dokumenten finden. Diese bisher geschilderten Vorgänge sind...

Architektur von Suchmaschinen: Keywordgewinnung

Der heutige Artikel aus unserer Reihe zur Suchmaschinenarchitektur wird sich erneut dem Information Retrieval System widmen. Im letzten Beitrag zur Wort-und Sprachidentifikation habe ich darauf hingewiesen, dass sich dieses System allgemein in drei Komponenten aufteilen lässt: die Datennormalisierung, die Dokumentenanalyse und die Schaffung durchsuchbarer Datenstrukturen (Indexierung). Auch möchte ich noch einmal an die Frage erinnern, die ich im letzten Artikel gestellt habe und an der sich auch der heutige Beitrag orientiert: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können? Hierzu wurden beim letzten Mal bereits erste Antworten geliefert. Von den sechs Prozessen, die hierbei im Rahmen der Datennormalisierung und der...

Architektur von Suchmaschinen: Wort- und Sprachidentifikation im Information Retrieval System

In unserem ersten Beitrag zur Architektur von Suchmaschinen habe ich bereits erwähnt, dass die meisten Suchmaschinen drei Funktionen oder Funktionsbereiche haben. Das waren erstens die Datengewinnung, zweitens die Datenverwaltung und-Analyse und drittens die Verarbeitung von Suchanfragen. Wir bewegen uns auch weiterhin entlang der Frage: Wie funktionieren Suchmaschinen? In den ersten drei Beiträgen haben Sie erfahren können, wie die Datengewinnung im Webcrawler-System funktioniert. Nun kommen wir zur zweiten Funktion der Suchmaschinen, der Datenverwaltung und Datenanalyse oder zu der Frage: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können? Dies geschieht mit dem sogenannten Information Retrieval System, dessen Aufgaben sich in drei Teile gliedern...

Architektur von Suchmaschinen: Crawler

In den beiden vorhergehenden Artikeln zur Architektur von Suchmaschinen sind wir bereits auf zwei Module des Webcrawler Systems eingegangen. Das waren zum einen die Datenspeichermodule, bestehend aus Dokumentenindex und Repository und zum anderen die Verarbeitungsmodule Scheduler und Storeserver. Heute kommen wir nun zu den Protokollmodulen, die aus den einzelnen Crawlern bestehen. Die Crawler sind für die modernen Suchmaschinen von zentraler Bedeutung. Es kommt ja auch nicht von ungefähr, dass sie namensgebend für das Webcrawler-System sind.  Sie sind das einzige Element der Suchmaschinen, das außerhalb ihres Systems arbeitet; sie stellen sozusagen die Verbindung nach außen dar. Das macht sie doppelt bedeutend, zum einen für die Suchmaschinen selbst, denn sie sind auf ein gutes Funktionieren ihrer Crawler angewiesen und darauf, dass diese...

Architektur von Suchmaschinen: Scheduler und Storeserver

Im letzten Beitrag zur Architektur von Suchmaschinen habe ich über die Datenspeicherungsmodule im Webcrawler-System geschrieben, den Dokumentenindex und das Repository. Der heutige Artikel beschäftigt sich natürlich weiterhin mit dem Webcrawler-System, nämlich mit den Verarbeitungsmodulen "Scheduler" und "Storeserver".  Ihrer Bezeichnung entsprechend, sind sie für das Verarbeiten und Speichern der Daten und der Informationen zuständig, die sie vom Dokumentenindex und den Crawlern erhalten. Scheduler In Wikipedia findet sich sowohl ein Eintrag über einen Datenbank-Scheduler, der "der Verwaltung von Schreib- und Lesezugriffen (sog. Operationen) auf Datenbankobjekten" dient, als auch eine weitere Definition für einen Prozess-Scheduler, der "die zeitliche Ausführung mehrerer Prozesse in Betriebssystemen regelt."  Der Scheduler im Webcrawler-System von Suchmaschinen ist ein bisschen von beidem. Er spielt eine sehr zentrale Rolle, da er...

Architektur von Suchmaschinen: Dokumentenindex

Als wir den Seosweet Blog gestartet haben, sind wir zu Beginn auf die grundsätzliche Frage eingegangen: Was ist eine Suchmaschine? In diesem und in einigen weiteren Beiträgen wird es nun um die Architektur von Suchmaschinen gehen, also grob gesagt, um deren Aufbau. Im Hintergrund dazu steht die Frage: Wie funktionieren Suchmaschinen? Um den Usern möglichst gute, komplette und aktuelle Ergebnisse liefern zu können, müssen riesige Datenmengen des Internets gesammelt werden, um sie dann zu analysieren und den Usern die richtigen Informationen zu den passenden Suchphrasen bereitzustellen. Von diesen drei Funktionen der Datengewinnung, der Datenanalyse und der Verarbeitung von Suchanfragen werden wir in diesem und den kommenden Beiträgen vor allem die erste Funktion der Datengewinnung betrachten. Das Webcrawler-System Wie schaffen es...