Die Mär von der Erkennung ähnlicher Inhalte

Manchmal passieren rätselhafte Dinge. Alle Welt schreibt vom semantischen Web, von toten Keyword-Densities, oder gar vom Sterben der gesamten SEO-Szene. Mögen Computer und die Algorithmen, die in ihnen werkeln, noch so intelligent sein: Doppelte Inhalte zu erkennen ist offenbar ganz und gar nicht trivial.

Ich machte dazu ein kleines Experiment und beteiligte mich am HochgeschwindigkeitsSEO-Wettbewerb. Dabei stieß ich auf mehrere interessante Dinge:

  1. Google lässt sich noch immer hinsichtlich des Veröffentlichungsdatums eines Artikel täuschen.
  2. Mit Schrottcontent passable Rankings zu erzielen ist nicht ganz so kompliziert wie gedacht.

Zu den Eckdaten:

Ziel des Wettbewerbs war es mit dem Keyword “HochgeschwindigkeitsSEO” an einem bestimmten Tag auf Platz 1 der Google-Suchergebnisse zu landen. Der Gewinner sollte bei der OMClub Party vor ca. zwei Wochen gekürt werden. Der Contest dauerte ein paar Wochen und ich nahm ihn nur am Rande zur Kenntnis, weil ich zu dieser Zeit recht viel unterwegs war. Fünf Stunden bevor der Sieger bekannt gegeben wurde, hatte ich ein bisschen Zeit und da man bei Sistrix so schön die Ergebnisse beobachten konnte, dachte ich mir: Schau mal, wie weit Du in ein paar Stunden kommst. Schließlich ging es um möglichst schnelle Optimierung.

Wenn ich Tools zur Textoptimierung entwickle, teste ich ganz gern mit dem Wort “Currywurst” und so war es naheliegend, den entsprechenden Wikipedia-Artikel zu kopieren und alle Vorkommen von Currywurst durch “HochgeschwindigkeitsSEO” zu ersetzen. Noch ein paar Überschriften setzen und den Text anständig formatieren – fertig war mein Contest-Beitrag.

Mir fiel auf, dass ältere Ergebnisse zum Thema potentiell ein bisschen besser rankten, also versuchte ich einen Trick, den ich vor längerer Zeit schon einmal beschrieben hatte. Ungeachtet dessen, dass das bessere Ranking auch an einer besseren Verlinkung hätte liegen können, setzte ich das Veröffentlichungsdatum des Beitrages einen Tag zurück (auf den 11.09.).

30 Minuten später stand mein Artikel auf Platz 57 der Google-Suchergebnisse. Eine Stunde später auf 47. Am Abend landete er noch in den 30ern. Angesichts der Anzahl der Ergebnisse, die Google zu diesem Thema aufwies, war das ein etwas erstaunlicher Aufstieg. Zumal ich nur zehn Minuten mit dem Beitrag zugebracht hatte und meine einzigen Links von Seoigg und aus einem Blog kamen, für den ich kaum noch schreibe. Aktuell steht der Artikel auf Platz 14 in den Suchergebnissen (der Anstieg erfolgte ganz von allein, ohne das weitere Links hinzukamen oder sonstige Änderungen vorgenommen wurden). Als Datum angezeigt wird der 11.09., obwohl ich ihn ja am 12.09. publiziert hatte. Der Begriff hat 1,5 Mio. Konkurrenten von denen sich viele viel mehr Mühe gemacht haben als ich.

Und obwohl der Artikel voll in die duplicate content Problematik laufen sollte, passierte nichts, außer einem steigenden Ranking. Ich hätte erwartet, dass er nach nunmehr zwei Wochen komplett aus dem Ranking verschwindet.

Warum tut er das dennoch nicht?

Es gibt dafür mehrere Erklärungen: Die Klassifizierung der Hochwertigkeit eines Beitrages erfolgt stufenweise. Selbst mit derart viel Rechenpower wie bei Google bleibt einem zunächst nichts anderes übrig, als erstmal alles in den Index aufzunehmen, was ankommt. Genau das ist passiert.

Nach oberflächlichen OnSite-Kriterien ist der Artikel super. Sowohl was die Textlänge, als auch die enthaltenen Formulierungen angeht. Selbst wenn die Keyword-Density in der Theorie keine Rolle spielen dürfte, hier tut sie es definitiv. Und auch wenn unsere Suchmaschinen immer intelligenter werden, bedeutet das noch lange nicht, dass Sie einen sinnvollen Text erkennen. Google tut sich selbst mit der Erkennung von Singular und Plural derart schwer, dass es äußerst unwahrscheinlich scheint, tatsächlich den Inhalt eines Textes nach menschlichen Maßstäben “vernünftig” klassifizieren zu können.

Und weil wir seit einer Woche nicht geschrieben haben, setzte ich den Artikel jetzt in die Vergangenheit. Für die Kontinuität in der Ranking-Darstellung ;-)

Jakob Zogalla 51 posts

Jakob hat Seosweet gegründet und zeichnet sich verantwortlich für die Softwareentwicklung.

10 Kommentare

  • [...] Drei Artikel. Der erste handelte von der Zuverlässigkeit des Google-Alogirthmus hinsichtlich der Erkennung von duplicate content. Im zweiten ärgerte ich mich ein wenig über das aufgebauschte Reputationsgehabe wegen der [...]

  • Malte (2 Jahre ago) Reply

    Interessante Untersuchung. Wäre interessant, wie sich das in nächster Zeit entwickelt. Bitte auf dem laufenden halten.

  • Ingo (2 Jahre ago) Reply

    Ich denke dieser und die vergangenen SEO-Wettbewerbe ala "HochgeschwindigkeitsSEO" sind kein Maßstab für die Genauigkeit von Google, wenn es um das Thema semantisches Web geht.

    Was du aber schön gezeigt hast ist, dass wenn Google den Suchbegriff und/oder Content semantisch nicht einordnen kann, entsteht eine Spielwiese für "schlechtes" bzw. "technisches" SEO (was in den vergangenen Wettbewerben auch überzeugend gezeigt wurde).

    Ich denke, dass jeder (du eingeschlossen) 100x mehr Beispiele generieren kann, in denen der Semantik Algo überzeugend greift und die technisch arbeitenden Seiten am Ende der Suchergebnisse erscheinen.

    Was mich bei sowas immer am meisten ärgert ist der Fakt, dass Google steif und fest behauptet ihr Steckenpferd sei der Longtail in Verbindung mit semantischen Faktoren. Das ist schlicht und ergreifend nicht der Fall. Eventuell besser, wenn an der Konkurrenz gemessen, aber immer noch u-n-t-e-r-i-r-d-i-s-c-h.

    Schöner Artikel! :)

  • Chrischi (2 Jahre ago) Reply

    Was ich nicht verstehe - wieso hat es so einen großen Einfluss auf das Ranking, wenn ich das Datum nur um einen Tag nach hinten verschiebe?

  • [...] hat gezeigt, dass Schrottseo leider weiterhin funktioniert. Das beschreibt Jakob in “Die Mär von der Erkennung ähnlicher Inhalte“.  Die eignet sich zwar wenig als Gutenachtgeschichte, aber dafür hervorragend um zu [...]

  • admin (2 Jahre ago) Reply

    @Chrischi
    Bei einem Begriff den Google noch nicht kennt bekommen diejenigen die zuerst darüber schreiben ein paar Gummipunkte. Richtig interessant wird das Thema aber erst, wenn man den Blogsearch verwendet. Dort kann man nämlich den Veröffentlichungszeitpunkt für die Suche eingrenzen. Dadurch lassen sich signifikante Vorteile erzielen. Für den Wettbewerbskontext spielte die zeitliche Verschiebung eher eine untergeordnete Rolle.

  • Martin Pi (2 Jahre ago) Reply

    Schön, dass ein Profi der Szene(?) offenbart, dass SEO einfach ist und kein großes Geheimnis.

    • in reply to Martin Pi #2
      David Linden (2 Jahre ago) Reply

      In der Tat ist es bisweilen erschreckend und ernüchternd, was doch alles mit welchen Methoden möglich ist. Aber solche Ergebnisse, gerade im Rahmen von Wettbewerben zeigen keineswegs, dass SEO einfach wäre. Niemand weiß so ganz genau wann z.B. duplicate Content erkannt wird und wann nicht. Es ist auch möglich dass er erst nach einiger Zeit erkannt wird. Um sowas rauszufinden sind ja unter anderem solche Experimente da. Das sind aber Modellversuche, mit der SEO in der Realität haben sie nur teilweise Ähnlichkeit, denn für niemanden macht es Sinn, seine Website mit dem Currywurst Text zu betexten oder auf einen fiktiven Begriff nach dem niemand sucht zu optimieren, zumindest dann nicht wenn man mit der Seite irgendwelche Menschen erreichen möchte.

  • [...] man den Damen und Herren Suchmaschinen-Optimierern sogar mit Nachdruck streitig machen muss, selbst wenn Google nachweislich so dämlich ist, dass die Suchmaschine noch immer darauf hereinfällt, wenn ein Datum nachträglich manipuliert [...]

  • [...] einen Seite funktionieren viele Systeme gar nicht so gut wie erwartet. Dazu gehört beispielsweise die Erkennung von duplicate content. Andererseits, entschuldigt die Ausdrucksweise, kacken die Meisten bei Themen [...]

Leave a Reply

Hinweise zu Kommentaren
User die zum ersten mal kommentieren müssen erst freigeschaltet werden, daher erscheint der Kommentar nicht immer sofort. Beleidigungen werden selbstverständlich gelöscht, genauso wie Spam. Links in Kommentaren sind nur erlaubt, wenn sie einen gewinnbringenden Beitrag zur Diskussion leisten. Als Alternative zur Wordpress Kommentarfunktion könnt ihr auch gerne die Google+ oder Facebook Kommentarfunktion nutzen.

Loading Facebook Comments ...

No Trackbacks.