Architektur von Suchmaschinen: Wort- und Sprachidentifikation im Information Retrieval System

In unserem ersten Beitrag zur Architektur von Suchmaschinen habe ich bereits erwähnt, dass die meisten Suchmaschinen drei Funktionen oder Funktionsbereiche haben. Das waren erstens die Datengewinnung, zweitens die Datenverwaltung und-Analyse und drittens die Verarbeitung von Suchanfragen.

Wir bewegen uns auch weiterhin entlang der Frage: Wie funktionieren Suchmaschinen? In den ersten drei Beiträgen haben Sie erfahren können, wie die Datengewinnung im Webcrawler-System funktioniert. Nun kommen wir zur zweiten Funktion der Suchmaschinen, der Datenverwaltung und Datenanalyse oder zu der Frage: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können?

Dies geschieht mit dem sogenannten Information Retrieval System, dessen Aufgaben sich in drei Teile gliedern lassen: Die Datennormalisierung, die Daten- bzw. Dokumentenanalyse und die Schaffung von durchsuchbaren Datenstrukturen (die eigentliche Indexierung).

Ziel der Datennormalisierung  und der Analyse ist es, die relativ ungeordneten Dokumente, die im Webcrawler System gesammelt wurden, zu strukturieren, um sie dann später indexieren und also durchsuchbar machen zu können. Dazu werden vor der Indexierung sechs Prozesse durchlaufen:

  1. die Datennormalisierung
  2. die Wortidentifikation
  3. die Sprachidentifikation
  4. das Word Stemming
  5. die Deskriptorengewinnung
  6. der Blacklist-Abgleich

Hierbei ist zu berücksichtigen, dass es sich bei diesen sechs Prozessen nur um eine vereinfachende Zusammenfassung handelt. Es finden sich auch Auflistungen mit abweichenden Formulierungen oder anderen Gewichtungen in der Zusammenfassung der eingesetzten Verfahren.

Im diesem Beitrag werden wir uns nun zunächst mit den ersten drei Verfahren befassen, die weiteren werden dann in kommenden Beiträgen folgen.

Datennormalisierung

Die Datennormalisierung könnte man auch Datenanpassung nennen, denn sie hat die Aufgabe alle Dokumente in ein einheitliches Dateiformat, also in der Regel in Textform, zu bringen. Das dient zum einen dazu eine vergleichbare Datenbasis zu schaffen, zum anderen können die Suchmaschinen so an den reinen inhaltlichen oder informativen Teil der Dokumente gelangen, da dieser sich normalerweise im Textteil befindet. Also werden alle inhaltlich nicht relevanten Teile entfernt, unter anderem HTML-, Java- oder andere Code-Elemente, sodass am Ende eine reine textliche Zeichenfolge übrig bleibt. Daher ist es im Rahmen der Suchmaschinenoptimierung sehr wichtig auf eine saubere Programmierung Ihrer Internetseite zu achten, denn wenn einzelne Code-Elemente fehlerhaft sind und daher dem inhaltlichen Teil zugerechnet werden, dann senkt das natürlich die inhaltliche Qualität des Textteils, was sich aufs Ranking auswirken kann.

Wortidentifikation

Bei der Wortidentifizierung handelt es sich im Wesentlichen um einen Konvertierungsvorgang. Denn in der Datennormalisierung wurde ja lediglich eine Zeichen- oder Textreihe erzeugt. Aus dieser Aneinanderreihung von Zeichen muss dann eine Aneinanderreihung von Wörtern werden, wenn denn in einem späteren Schritt relevante Keywords aus dem Text gefiltert werden sollen. Das ist in westlichen Sprachen noch recht einfach, da wir Satzzeichen und Wortseparatoren wie das Leerzeichen haben. Dies wird auch als Tokenisierung bezeichnet und ist für Sie ebenfalls relevant, denn wenn Sie in Ihren Texten Rechtschreibfehler, Zeichensetzungsfehler oder vor allem auch Fehler beim Einsatz von Sonderzeichen machen, kann das auch zu Fehlern bei der Tokenisierung führen.

Sprachidentifikation

Das Internet ist ja bekanntlich nicht auf ein Land beschränkt sondern WorldWide. Daher gibt es auch Websiten in allen möglichen Sprachen. Wenn ein Nutzer einen Suchbegriff eingibt, erwartet er dann in der Regel auch Ergebnisse in seiner Sprache. In Google gibt es dafür zum Beispiel eine Option in der man die Sprache wählen kann, in der die Ergebnisse erscheinen sollen. Woher aber wissen die Suchmaschinen um welche Sprache es sich handelt? Aus dem Meta-Tag language entnehmen sie diese Information nicht, denn dafür ist diese Information für die Suchmaschinen ja zu wichtig, um von fremden Angaben abhängig zu sein. Mit Hilfe einer Wörterbucherkennung und vor allem hoch komplexen statistischen Verfahren ermitteln die Suchmaschinen daher die Sprache der Internetseiten selbst.

Im nächsten Beitrag zur Architektur von Suchmaschinen werden wir uns wieder mit dem Information Retrieval System beschäftigen. Dann wird es darum gehen, wie die Texte analysiert und die relevanten Keywords aus ihnen gewonnen werden.

David Linden 178 posts

Autor

Man findet mich auf Google+

7 Kommentare

  • [...] wird sich wieder dem Information Retrieval Sytem widmen. Im letzten Beitrag zur Wort-und Sprachidentifikation habe ich darauf hingewiesen, dass sich dieses System allgemein in drei Komponenten aufteilen [...]

  • [...] mich in unserer Reihe zur Architektur von Suchmaschinen dem dritten und letzen Aufgabenbereich des Information Retrieval Systems widmen, der Indexierung bzw. der “Schaffung durchsuchbarer [...]

  • [...] Webcrawler-Systems gewinnen die Suchmaschinen die für sie notwendigen Daten. Diese werden dann im Information Retrieval System zu nützlichen Informationen zusammengefasst und ausgewertet. Am Ende dieses Prozesses, der [...]

  • [...] nicht so schnell ändern wie uns stellenweise sicherlich lieb wäre. David hat darüber schon im vergangenen November geschrieben. Insgesamt ist zur Architektur von Suchmaschinen eine recht ausführliche Serie [...]

  • [...] Wort- und Sprachidentifikation:Die Wortidentifizierung ist ein Konvertierungsvorgang, bei dem die in der Datennormalisierung erreichte Zeichenfolge in eine Wörterfolge umgewandelt wird. Das heißt, die einzelne Anneinanderreihungen von Buchstaben werden als Wörter identifiziert. In der Sprachidentifikation wird die Sprache in der das Dokument verfasst ist bestimmt. Genaueres zum Information Retrieval System und den bisher erwähnten Punkten zur Datennormalisierung und Wort- und Sprachidentifikation erfahren Sie im vierten Teil unserer Serie. [...]

  • […] zu ordnen, zu verwalten und schließlich auszugeben (siehe auch Architektur von Suchmaschinen / Information Retrieval), letztlich unterliegt die Ausgabe der Suchergebnisse aber dann doch eigenen Kriterien, die nur […]

  • […] Seiten. Mit diesem eigentlich simplen Ansatz hatte Google im Gegensatz zur Konkurrenz qualitativ deutlich bessere Suchergebnisse und konnte den Bewertungsprozess einer Webseite automatisieren. Ein weiterer wichtiger Punkt in […]

Leave a Reply

Rules of the Blog
Do not post violating content, tags like bold, italic and underline are allowed that means HTML can be used while commenting. Lorem ipsum dolor sit amet conceur half the time you know i know what.

Loading Facebook Comments ...

No Trackbacks.