Heute komme ich zum letzten Teil unserer Reihe Architektur von Suchmaschinen. Von den drei Funktionen der Suchmaschinen, der Datengewinnung, der Datenverwaltung und Analyse und der Verarbeitung von Suchanfragen, habe ich bisher die ersten beiden Funktionen behandelt. Mit Hilfe des sogenannten Webcrawler-Systems gewinnen die Suchmaschinen die für sie notwendigen Daten. Diese werden dann im Information Retrieval [...]
Heute werde ich mich in unserer Reihe zur Architektur von Suchmaschinen dem dritten und letzen Aufgabenbereich des Information Retrieval Systems widmen, der Indexierung beziehungsweise der “Schaffung durchsuchbarer Datenstrukturen”. Die Aufgabe von Suchmaschinen ist es, dem Nutzer möglichst die zu seinen Suchbegriffen passendsten und relevantesten Internetseiten anzuzeigen. In unserer Serie haben wir die Datengewinnung und die [...]
Der heutige Artikel aus unserer Reihe zur Suchmaschinenarchitektur wird sich wieder dem Information Retrieval System widmen. Im letzten Beitrag zur Wort-und Sprachidentifikation habe ich darauf hingewiesen, dass sich dieses System allgemein in drei Komponenten aufteilen lässt, die Datennormalisierung, die Dokumentenanalyse und die Schaffung durchsuchbarer Datenstrukturen (Indexierung). Auch möchte ich noch einmal an die Frage erinnern, [...]
In unserem ersten Beitrag zur Architektur von Suchmaschinen, habe ich bereits erwähnt, dass die meisten Suchmaschinen drei Funktionen oder Funktionsbereiche haben. Das waren erstens die Datengewinnung, zweitens die Datenverwaltung und-Analyse und drittens die Verarbeitung von Suchanfragen. Wir bewegen uns auch weiterhin entlang der Frage: Wie funktionieren Suchmaschinen? In den ersten drei Beiträgen haben Sie erfahren [...]
In den beiden vorhergehenden Artikeln zur Architektur von Suchmaschinen sind wir bereits auf zwei Module des Webcrawler Systems eingegangen. Das waren zum einen die Datenspeichermodule, bestehend aus Dokumentenindex und Repository und zum anderen die Verarbeitungsmodule Scheduler und Storeserver. Heute kommen wir nun zu den Protokollmodulen, die aus den einzelnen Crawlern bestehen. Die Crawlern sind für [...]
Im letzten Beitrag zur Architektur von Suchmaschinen habe ich über die Datenspeicherungsmodule im Webcrawler System geschrieben, den Dokumentenindex und das Repository. Der heutige Artikel beschäftigt sich natürlich weiterhin mit dem Webcrawler-System, nämlich mit den Verarbeitungsmodulen: Scheduler und Storeserver. Ihrer Bezeichnung entsprechend, sind sie für das Verarbeiten und Speichern der Daten und der Informationen zuständig, die [...]