Architektur von Suchmaschinen: Keywordgewinnung

Der heutige Artikel aus unserer Reihe zur Suchmaschinenarchitektur wird sich erneut dem Information Retrieval System widmen. Im letzten Beitrag zur Wort-und Sprachidentifikation habe ich darauf hingewiesen, dass sich dieses System allgemein in drei Komponenten aufteilen lässt: die Datennormalisierung, die Dokumentenanalyse und die Schaffung durchsuchbarer Datenstrukturen (Indexierung). Auch möchte ich noch einmal an die Frage erinnern, die ich im letzten Artikel gestellt habe und an der sich auch der heutige Beitrag orientiert: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können?

Hierzu wurden beim letzten Mal bereits erste Antworten geliefert. Von den sechs Prozessen, die hierbei im Rahmen der Datennormalisierung und der Dokumentenanalyse durchlaufen werden müssen, haben wir die Datennormalisierung sowie die Wort- und Sprachidentifikation bereits erläutert. Heute geht es daher um den zweiten Teil der Dokumentenanalyse, die das Word Stemming, die Deskriptoren- oder Keywordgewinnung und die Blacklist umfasst. Die Übergänge von der Dokumentenanalyse zur Indexierung sind hier fließend. Man sieht auch, dass zum Beispiel die Keywordgewinnung schon zur Indexierung gezählt wird, so zum Beispiel im 1 und 1 Blog.

Word Stemming

Word Stemming bedeutet letztlich nichts anderes als die Bildung von Wortstämmen. Die Wörter in dem zu untersuchenden Dokument werden also auf ihren Wortstamm reduziert. Auf diese Weise können dann auch Begriffe gefunden werden, die im Text zum Beispiel im Plural oder als konjugiertes Verb vorkommen. Dies funktioniert selbstverständlich nur, da vorher in der Sprachidentifikation die Sprache des Dokuments festgestellt wurde. In einer Suchmaschine, die kein Word Stemming verwendet, würde man Probleme bekommen, wenn man einen Suchbegriff zum Beispiel in der Pluralform eingibt. Das passiert bei den großen Suchmaschinen wie Google jedoch nicht, da diese in der Regel Word Stemming verwenden.

Ziel des Word Stemmings ist es die Größe des zu durchsuchenden Dokuments zu verringern. Vor allem sollte zunächst der Anteil relevanter Dokumente des Datenbestandes, die auch tatsächlich gefunden werden (Recall), erhöht werden. So werden nach Möglichkeit alle für eine Abfrage relevanten Dokumente ermittelt. Außerdem sollte der Anteil relevanter Dokumente in den gefundenen Dokumenten (Precision) gesteigert werden, sodass im Idealfall keine irrelevanten Dokumente mehr zu finden sind.

Die Steigerung von Recall und Precision kann selbstverständlich nicht allein durch Word Stemming erreicht werden. Daher ist es  extrem vereinfachend für die Dokumentenanalyse von nur sechs Prozessen auszugehen, denn es gibt auch noch weitere Verfahren, die  anstatt des Word Stemmings oder zusätzlich von den Suchmaschinen in der Dokumentenanalyse verwendet werden, u.a. um Recall und Precision zu steigern. Davon sollen hier einige genannt werden:

Stoppworterkennung

Bei Stoppwörtern handelt es sich im Wesentlichen um Wörter, die zwar eine syntaktische Bedeutung haben, aber für den Inhalt eines Textes keine Rolle spielen. Darunter fallen zum Beispiel bestimmte und unbestimmte Artikel, Präpositionen oder Konjunktionen. Diese werden mit der Stoppworterkennung zunächst erkannt und dann aus dem Dokument entfernt. Das erhöht die Precision, wie es auch die Größe des zu indexierenden Dokuments verringert.

Mehrwortgruppen-Identifikation

Hierbei handelt es sich um ein Verfahren, das Worte erkennen soll, die aus mehreren Wörtern zusammengesetzt sind. Dies geschieht mit Hilfe von Wörterbüchern und statistischen Verfahren. Im Übrigen erscheint mir dieser Filter gerade für den deutschen Sprachraum sehr wichtig, denn wir verwenden ja ungewöhnlich häufig zusammengesetzte Worte. Das Wort Suchmaschinenoptimierung könnte man zum Beispiel in zwei, bzw. sogar in drei Wörter zerlegen. Wenn also “Suchmaschine” oder nur das Verb “suchen” vorkommt, könnte durch die Mehrwortgruppen-Identifikation festgestellt werden, dass die Wörter zu einer bestimmten Wahrscheinlichkeit zusammengehören.

Es gibt auch noch weitere Filterverfahren, wie zum Beispiel das Part-of-Speech Tagging, die zur Dokumentenanalyse eingesetzt werden. Dass all diese Filter noch nicht perfekt arbeiten, merkt man sehr häufig, wenn man selbst mal etwas sucht und auf falsche Ergebnisse trifft. Aber durch stetige Weiterentwicklung dürften sie immer besser werden.

 

Keywordgewinnung

Die Keywordgewinnung, genauer gesagt die Gewinnung von relevanten Keywords, ist das eigentliche Hauptziel des Information Retrieval Systems. Denn Keywords (Schlüsselwörter, Deskriptoren) sind für die Suchmaschinen die Wörter eines Dokuments, die den Inhalt der Seite am besten beschreiben oder wiedergeben. Keywords sind auch die Wörter, die dann später im Index mit der Sucheingabe des Users verglichen werden. Sie sind daher letztlich für die Suchmaschinen der wichtigste Anhaltspunkt, um zu erkennen, welche Seiten für eine Sucheingabe relevant sind. Damit sind die Keywords auch für die Seitenbetreiber von großer Bedeutung. Nicht zuletzt dreht sich im Rahmen der Suchmaschinenoptimierung letztlich alles um die Optimierung auf bestimmte Keywords. Darauf sind wir in einem früheren Artikel auch schon einmal eingegangen.

Wie erkennen die Suchmaschinen aber die inhaltlich relevanten Keywords? Die Antwort lautet mal wieder: über statistische Verfahren. Nachdem die Texte durch die vorher beschriebenen Filter bearbeitet wurden, wird in der Keywordgewinnung die Häufigkeit ermittelt, wie oft bestimmte Wörter und Begriffe vorkommen. Es hat sich gezeigt, dass inhaltlich relevante Keywords in der Regel eine Dichte von zwei bis sechs Prozent im Text ausmachen (Keyword-Density).

Was bedeutet das für Sie als Betreiber, wenn Sie bei bestimmten Keywords gefunden werden wollen? Das bedeutet für Sie, dass Sie darauf achten sollten, dass eben diese Keywords in einer mittleren Häufigkeit selbst oder in Variation in Ihrem Text vorkommen. Dabei kann der Begriff ruhig ein- oder zweimal häufiger verwendet werden, als man dies normalerweise machen würde. Jedoch muss unbedingt darauf geachtet werden, dass es nicht zu offensichtlich und für den Leser nervend wird.

Blacklist-Abgleich

Mit der Blacklist soll der Teil zur Dokumentenanalyse abgeschlossen werden. Im nächsten Beitrag zur Architektur von Suchmaschinen wird es dann schließlich um die Indexierung gehen.

Auf der Blacklist der Suchmaschinen befinden sich rechtlich oder sonstwie problematische bzw. verbotene Begriffe. Im Blacklist-Abgleich werden die zu indexierenden Dokumente noch einmal auf diese Wörter untersucht. Werden Dokumente mit solchen Begriffen entdeckt, wird es nicht in den Index aufgenommen und aus der URL-Datenbank entfernt.

 

David Linden 169 posts

Head of Business Development bei Seosweet. Mädchen für Alles. Historiker. Online Marketer. SEO Stratege.

Man findet mich auf Google+

4 Kommentare

  • Matze (3 Jahre ago) Reply

    Und wer mal wissen möchte welche Keywords auf seiner Seite relevant kann gerne mal bei mir vorbei schauen ;)

    http://www.semager.de/keywords/url-analyse.php

  • [...] Die Aufgabe von Suchmaschinen ist es, dem Nutzer möglichst die zu seinen Suchbegriffen passendsten und relevantesten Internetseiten anzuzeigen. In unserer Serie haben wir die Datengewinnung und die Dokumentenanalyse bereits besprochen. Wir haben geklärt, wie es den Suchmaschinen gelingt automatisch Inhalte im Web zu finden und diese dann auch noch zu verstehen. Wir sind auf bestimmte Filter eingegangen, die angewandt werden, um die inhaltlich relevanten Teile einer Website herauszufinden. Und schließlich haben wir erklärt, wie die Suchmaschinen die relevanten Keywords in den einzelnen Dokumenten finden. [...]

  • [...] ist ein sehr interessanter Bestandteil der Funktionsweise von Suchmaschinen, genauer gesagt der Art wie sie Informationen sammeln und verarbeiten. Webseiten, die latent semantisch optimiert wurden schneiden für gewöhnlich im Ranking besser ab, [...]

  • [...] Wörter in Dokumenten vor werden diese nicht in den Index aufgenommen. Diese Prozesse wurden im fünften Teil der Serie zur Architektur von Suchmaschinen [...]

Leave a Reply

Hinweise zu Kommentaren
User die zum ersten mal kommentieren müssen erst freigeschaltet werden, daher erscheint der Kommentar nicht immer sofort. Beleidigungen werden selbstverständlich gelöscht, genauso wie Spam. Links in Kommentaren sind nur erlaubt, wenn sie einen gewinnbringenden Beitrag zur Diskussion leisten. Als Alternative zur Wordpress Kommentarfunktion könnt ihr auch gerne die Google+ oder Facebook Kommentarfunktion nutzen.

Loading Facebook Comments ...

No Trackbacks.