Wie wir bereits im Artikel “Was ist eine Suchmaschine?” angedeutet haben, ist der Vorgang des Crawlings, also der Erfassung aller Unterseiten einer Internetpräsenz ein äußerst komplexer und aufwändiger Vorgang. Da alle Suchmaschinenbetreiber sich darüber im klaren sind, haben sie sich darauf geeinigt einen gemeinsamen Standard zu entwickeln, der das Auffinden der relevanten Inhalte einer Internetpräsenz vereinfachen und beschleunigen soll: Die XML-Sitemaps.
Hierbei handelt es sich um einfach strukturierte XML-Dateien, welche alle Seiten der eigenen Internetpräsenz auflisten. Google und zwischenzeitlich auch Bing laden dann diese Datei herunter und analysieren sie. Folgende Daten sind dabei enthalten:
| <?xml version=”1.0″ encoding=”UTF-8″?> | |
| <urlset xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance” xsi:schemaLocation=”http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd” xmlns = “http://www.sitemaps.org/schemas/sitemap/0.9″> | |
| <url> | |
| <loc>http://www.seosweet.de/blog/2011/07/05/die-wichtigsten-suchmaschinen/</loc> | |
| <lastmod>2011-07-04T18:57:33+00:00</lastmod> | |
| <changefreq>weekly</changefreq> | |
| <priority>0.4</priority> | |
| </url> | |
| </urlset> | |
Die erste Zeile zeigt, dass es sich um eine XML-Datei handelt. Die zweite Zeile besagt, dass es sich um eine Auflistung von Internetadressen im XML-Sitemap Format handelt. Unterhalb des Urlset Elements kann eine nahezu beliebige Anzahl von URL-Elementen platziert werden. Diese bestehen aus den Elementen loc für die Adresse der Seite, lastmod für das Änderungsdatum, changefreq für die Änderungsfrequenz (zugelassene Werte sind always [ständig], hourly [stündlich], daily [täglich], weekly [wöchentlich], monthly [monatlich], yearly [jährlich], never [nie]), sowie priority für die selbstgewählte Wichtigkeit.
Die Priority wird mit einem Wert zwischen 0.0 (unwichtig) und 1.0 (wichtig) angegeben. Der Wert 1.0 sollte ausschließlich für die Startseite Ihrer Webpräsenz verwendet werden, es sei denn irgendeine Ihrer Unterseiten ist wichtiger als die Startseite. Dies dürfte allerdings nur in den seltensten Fällen zutreffend sein.
Der allerwichtigste Vorteil von XML-Sitemaps besteht in der Vollständigkeit der Indexierung, insbesondere bei größeren Internetpräsenzen. Dadurch finden Google und die anderen Suchmaschinen wirklich alle Seiten Ihrer Internetpräsenz. Wenn Sie mit mehr Inhalten in den Suchmaschinen vertreten sind, steigen auch Ihre Chancen gefunden zu werden entsprechend.
Ein weiterer entscheidender Vorteil ist die Geschwindkeit der Indexierung. Unsere Messungen haben ergeben, dass frisch publizierte Seiten, wenn eine XML-Sitemap vorhanden ist, ca. 1-2 Minuten nach deren Veröffentlichung im Google Index zu finden sind. Dies ist auf den Umstand zurückzuführen, dass Google nun nicht mehr alle Seiten Ihrer Internetpräsenz auswerten muss um festzustellen, ob und was sich geändert hat, sondern einfach in der XML-Sitemap nachschauen kann.
Hierfür gibt es mehrere Möglichkeiten. Sie können die Sitemap in einem herkömmlichen Texteditor verfassen und auf Ihren Webserver hochladen. In den seltensten Fällen werden Sie allerdings die Sitemap manuell erstellen wollen. Viele Content Management Systeme bieten Plugins zur Generierung der Sitemaps. Hier finden Sie eine Auflistung von Plugins für gängige Content-Management-Systeme:
Auch hierfür gibt es unterschiedliche Möglichkeiten. Die einfachste Variante besteht darin die Sitemap in die robots.txt einzutragen. Erstellen Sie hierzu einfach einen Eintrag mit der Zeile:
Sitemap: http://www.meineseite.de/sitemap.xml
Wenn Sie die Sitemap durch ein Plugin generieren lassen, wird dieser Punkt in der Regel automatisch erledigt.
Eine weitere Möglichkeit die Sitemap bekannt zu machen besteht darin, sie in den Webmastertools von Google einzutragen. Dadurch wird sie von Google direkt gefunden. Auf die anderen Suchmaschinen hat das zwar selbstverständlich keinen Einfluss, es ist jedoch trotzdem in jedem Fall empfehlenswert diesen Schritt auszuführen. Loggen Sie sich hierzu in den Google Webmaster Tools mit Ihren Zugangsdaten ein. Die XML-Sitemap können Sie dann im Menüpunkt Website-Konfiguration XML-Sitemaps einreichen.
Am Rande sei noch erwähnt, dass es weitere Arten von XML-Sitemaps für spezielle Arten von Inhalten gibt. Google unterstützt derzeit Sitemaps für:
Danke für den Beitrag. Ich habe noch eine kleine Anmerkung dazu:
Viele SEO’s verwenden einen anderen Pfad als “/sitemap.xml” und tragen diese auch nicht in die robots.txt ein, um Mitbewerbern das Analysieren des eigenen Projekts zu erschweren. Ich persönlich teile diesen Ansatz nicht, aber man weiß ja nie, was manche Leute zu verbergen haben ;)
[...] XML-Sitemaps die Indexierung erleichtert, haben wir bereits ausführlicher in dem Beitrag “Die richtige Verwendung von XML-Sitemaps” [...]
[...] zu tun, wie das ein menschlicher Nutzer kann. Auf dieses Problem und seine Lösung sind wir u.a. in unserem Beitrag zu den XML-Sitemaps eingegangen. Dennoch ist das Crawling insgesamt ein hoch komplizierter Prozess, an dem alle in [...]
[...] sich in der Regel innerhalb weniger Tage in den Suchergebnissen nieder. Mit einer gut gepflegten XML-Sitemap teilweise binnen [...]
[...] erstellt werden ist die Bezeichnung als XML-Sitemap üblicher. Zu diesen XML-Sitemaps hat Jakob auch schon einen Beitrag geschrieben und sehr gut erklärt wozu sie da sind, wie man sie verwendet und wie man eine XML-Sitemap [...]