Architektur von Suchmaschinen: Indexierung

Architektur von Suchmaschinen: Indexierung

Heute werde ich mich in unserer Reihe zur Architektur von Suchmaschinen dem dritten und letzen Aufgabenbereich des Information Retrieval Systems widmen, der Indexierung beziehungsweise der "Schaffung durchsuchbarer Datenstrukturen". Die Aufgabe von Suchmaschinen ist es, dem Nutzer möglichst die Internetseiten anzuzeigen, die zu seinen Suchbegriffen am passendsten und relevantesten sind. In unserer Serie haben wir die Datengewinnung und die Dokumentenanalyse bereits besprochen. Wir haben geklärt, wie es den Suchmaschinen gelingt automatisch Inhalte im Web zu finden und diese dann auch noch zu verstehen. Wir sind auf bestimmte Filter eingegangen, die angewandt werden, um die inhaltlich relevanten Teile einer Website herauszufinden. Und schließlich haben wir erklärt, wie die Suchmaschinen die relevanten Keywords in den einzelnen Dokumenten finden. Diese bisher geschilderten Vorgänge sind...

Architektur von Suchmaschinen: Keywordgewinnung

Der heutige Artikel aus unserer Reihe zur Suchmaschinenarchitektur wird sich erneut dem Information Retrieval System widmen. Im letzten Beitrag zur Wort-und Sprachidentifikation habe ich darauf hingewiesen, dass sich dieses System allgemein in drei Komponenten aufteilen lässt: die Datennormalisierung, die Dokumentenanalyse und die Schaffung durchsuchbarer Datenstrukturen (Indexierung). Auch möchte ich noch einmal an die Frage erinnern, die ich im letzten Artikel gestellt habe und an der sich auch der heutige Beitrag orientiert: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können? Hierzu wurden beim letzten Mal bereits erste Antworten geliefert. Von den sechs Prozessen, die hierbei im Rahmen der Datennormalisierung und der...

Architektur von Suchmaschinen: Wort- und Sprachidentifikation im Information Retrieval System

In unserem ersten Beitrag zur Architektur von Suchmaschinen habe ich bereits erwähnt, dass die meisten Suchmaschinen drei Funktionen oder Funktionsbereiche haben. Das waren erstens die Datengewinnung, zweitens die Datenverwaltung und-Analyse und drittens die Verarbeitung von Suchanfragen. Wir bewegen uns auch weiterhin entlang der Frage: Wie funktionieren Suchmaschinen? In den ersten drei Beiträgen haben Sie erfahren können, wie die Datengewinnung im Webcrawler-System funktioniert. Nun kommen wir zur zweiten Funktion der Suchmaschinen, der Datenverwaltung und Datenanalyse oder zu der Frage: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können? Dies geschieht mit dem sogenannten Information Retrieval System, dessen Aufgaben sich in drei Teile gliedern...

Architektur von Suchmaschinen: Crawler

In den beiden vorhergehenden Artikeln zur Architektur von Suchmaschinen sind wir bereits auf zwei Module des Webcrawler Systems eingegangen. Das waren zum einen die Datenspeichermodule, bestehend aus Dokumentenindex und Repository und zum anderen die Verarbeitungsmodule Scheduler und Storeserver. Heute kommen wir nun zu den Protokollmodulen, die aus den einzelnen Crawlern bestehen. Die Crawler sind für die modernen Suchmaschinen von zentraler Bedeutung. Es kommt ja auch nicht von ungefähr, dass sie namensgebend für das Webcrawler-System sind.  Sie sind das einzige Element der Suchmaschinen, das außerhalb ihres Systems arbeitet; sie stellen sozusagen die Verbindung nach außen dar. Das macht sie doppelt bedeutend, zum einen für die Suchmaschinen selbst, denn sie sind auf ein gutes Funktionieren ihrer Crawler angewiesen und darauf, dass diese...

Architektur von Suchmaschinen: Dokumentenindex

Als wir den Seosweet Blog gestartet haben, sind wir zu Beginn auf die grundsätzliche Frage eingegangen: Was ist eine Suchmaschine? In diesem und in einigen weiteren Beiträgen wird es nun um die Architektur von Suchmaschinen gehen, also grob gesagt, um deren Aufbau. Im Hintergrund dazu steht die Frage: Wie funktionieren Suchmaschinen? Um den Usern möglichst gute, komplette und aktuelle Ergebnisse liefern zu können, müssen riesige Datenmengen des Internets gesammelt werden, um sie dann zu analysieren und den Usern die richtigen Informationen zu den passenden Suchphrasen bereitzustellen. Von diesen drei Funktionen der Datengewinnung, der Datenanalyse und der Verarbeitung von Suchanfragen werden wir in diesem und den kommenden Beiträgen vor allem die erste Funktion der Datengewinnung betrachten. Das Webcrawler-System Wie schaffen es...

Aufnahme in den Index einer Suchmaschine – SEO Grundlagen

Die schönste Seite mit den besten Inhalten bringt Ihnen nichts, wenn sie keine User haben, die Ihren Fleiß und Ihre Mühen auch würdigen und die Seite besuchen. Bei dem mittlerweile riesigen Angebot an Webseiten, Blogs und Portalen zu allen allgemeinen und speziellen Themen des alltäglichen Lebens vertrauen fast alle Internetuser auf eine oder mehrere Suchmaschinen, um die Informationsflut einzugrenzen. Daher ist es zunächst wichtig, dass Ihre Seite auch bei mindestens einer der gängigen Suchmaschinen (also Google oder Bing) in den Index aufgenommen wird. Das Verfahren wie Ihre Website in den Index einer Suchmaschine gelangt, ist vom Prinzip her bei allen Suchmaschinen gleich. Anhand des Google-Index werden wir hier erläutern, wie das vonstattengeht. Es gibt zwei Möglichkeiten, damit Ihre Seite von...

Was ist eine Suchmaschine? – SEO Grundlagen

Das World Wide Web hat seit den 1990er ein rasantes Wachstum zu verzeichnen. Dieses Wachstum beinhaltet immer mehr Internetseiten - immer mehr Inhalt, jeden Tag. So wurde es schon früh für die Internetnutzer unmöglich, sich selbst in dem riesigen Angebot an Internetinhalten zu orientieren und vielleicht sogar die passenden Informationen zu einem Thema zu finden. Daher wurden zunächst Webkataloge entwickelt, die wie die gelben Seiten die Internetseiten katalogisierten. Mit zunehmendem Wachstum des Internets wurden sie aber zu langsam, da die Aufnahme der einzelnen Seiten auch viel zu lange dauerte, zumal sie oft noch von Menschen überprüft wurden. Dann kamen die Suchmaschinen auf, bei denen das Erfassen der bereitgestellten Informationen im Internet automatisch und somit viel schneller ablief. So konnte zumindest...