Legen Sie selbst fest, was Suchmaschinen crawlen dürfen und was erlaubt ist.
SEO-Tipp: Was dürfen Suchmaschinen crawlen?

Der SEO-Tipp zur Kalenderwoche 13
Legen Sie fest was Suchmaschinen crawlen dürfen und bestimmen Sie was erlaubt ist!

SEO-Tipp KW-13: Was dürfen Suchmaschinen crawlen?

SEO-Tipp: Legen Sie fest was Suchmaschinen alles crawlen dürfen und bestimmen Sie was erlaubt ist!

In dieser Woche dreht sich beim SEO-Tipp (Kalenderwoche 13) alles um Frage, was für Suchmaschinen erlaubt sein darf und was zum absoluten NoGo gehört. Und das bezieht sich nicht nur auf Google, sondern auf Crawler und Bots ganz allgemmein.





Die Crawler der Suchmaschinen schnappen sich alles was bekommen können. Sie sind es der hier Einhalt gebieten muss! Geben Sie also vor, was Sie den Bots zum indexieren gestatten und welche Verzeichnisse tabu sind. Der SEO-Tipp für diese Kalenderwoche lautet daher diesmal:

Legen Sie fest was Suchmaschinen crawlen dürfen

Genau dazu gibt es Crawler, die Sie gewissermassen steuern können. Die Web Crawler sind das Kerninstrument aller Suchmaschinen, um Inhalte im Internet auffinden und indexieren zu können. Für Webseitenbetreiber sehr wichtig, das Crawling der Suchmaschinen zu lenken und die Indexierung der einzelnen URLs zu steuern. Dafür gibt es auch einige Möglichkeiten, die ich hier etwas erläutern möchte.

Das Steuerung des Crawlings

Die Steuerung des Crawlings ist neben der Ladegeschwindigkeit und der Gesamterformance des Webauftritts, eine wichtige Aufgabe des Webmasters das Crawling aktiv zu beeinflussen. Dies geht auf sehr verschiedene Arten und Weisen.

Sie besuchen Internetseiten meist über Hyperlinks, die auf bereits indexierten Webseiten integriert sind. Der ausgelesene Inhalt wird dann im Cache gespeichert, ausgewertet und ggf. indexiert. Grundlage der Indexierung ist der Algorithmus der jeweiligen Suchmaschine. Die indexierten Daten werden dann in den Suchergebnissen der Suchmaschinen angezeigt.

Schauen wir uns die Möglichkeiten im Einzelnen etwas genauer an und orientieren Sie sich an dieser kleinen Checkliste:

Sie haben die Möglichkeit, darauf Einfluß zu nehmen!

    Über eine Datei namens robots.txt.

  • Die Datei „robots.txt“ enthält gezielt Steueranweisungen, wie der der Crawler vorzugehen hat. Mithilfe einer robots.txt, die immer im Root-Verzeichnis einer Domain (www.beispiel.de/robots.txt) liegen muss, kann man Crawlern verschiedene Anweisungen geben:

    1. Einzelne Crawler von der ganzen Seite oder einzelnen Verzeichnissen ausschließen.
    2. Einen Verweis auf die Adresse einer oder mehrerer XML-Sitemaps geben.
    3. Nicht öffentliche Verzeichnisse einer Webseite für Webcrawler verbieten oder sperren.
    4. Notwendige doppelte Inhalte, z.B. Druckversionen von HTML-Dateien, nicht zu indexieren

    Die Befehle einer robots.txt sind nur eine Empfehlung und werden nicht zwingend von Suchmaschinen berücksichtigt. Ausführliche Informationen zu den Möglichkeiten einer robots.txt findet Ihr unter: robots.txt – Was ist das und wie wende ich diese an?

    Aber auch natürliche Links weisen dem Crawler den Weg. Sie können sich die Informationsarchitektur Seo-Tipp-11 einer Website anschauen und darauf achten, sie so schlicht wie möglich aufzubauen.

  • Über die Anweisung „Noindex“

    Der Meta-Tag „noindex“ wird im „Header oder Head-Bereich“ einer Seite implementiert und sieht folgendermaßen aus:

    . Es wird Crawling-Budget verbraucht, wenn eine solche Seite aufgerufen wird, wird die Seite jedoch nicht indexiert. Die noindex-Anweisung ist verbindlich, das heißt, die Seite wird nach dem nächsten Crawling aus dem Index der Suchmaschinen genommen.
    Nützlich sind solche Tags beispielsweise bei folgenden Seiten:

    1. Paginierte Seiten
    2. URLs mit Parametern durch z.B. Filterfunktionen
    3. Suchergebnisseiten

  • Über Sitemaps und Miroformate.

    Andere Instrumente zur Steuerung des Crawlers sind Metadaten, Sitemaps und Mikroformate. Will man nun wissen, was die Crawler im eigenen Webauftritt so treiben, bieten sich Logfile-Analysen an. Hilfreich ist auch der Blick in die Crawl-Statistiken der Google Search Console. So kann man dann sehen, ob der Besucher wirklich der Google-Bot gewesen ist.

  • Über das Canonical-Tag im Header

    Anders als die noindex-Anweisung sind Canonicals nicht bindend für Suchmaschinen, das heißt es gibt keine Garantie, dass Suchmaschinen den Empfehlungen folgen.
    Canonicals sehen wie folgt aus: &rasq; und werden wie auch die noindex-Anweisung ebenfalls im Header einer Seite implementiert.
    Anders als die noindex-Anweisung geht es hier nicht darum eine Seite aus dem Index zu nehmen, sondern man spricht eine Empfehlung aus, welche URL anstelle der gerade aufgerufenen Seite indexiert werden soll.
    Dies ist zum Beispiel praktisch bei einem Online Shop, wenn durch Filterfunktionen Duplicate Content von Kategorie-Seiten entsteht.

  • Über die Search Console

    Die Google Search Console ist sehr mächtig und man kann großen Einfluss auf den Googlebot und den Google-Index nehmen.

    Die vielen unterschiedlichen Funktionen der Google Search Console (GSC), sind meist recht hilfreich sind, um Einblicke in den Crawler und den Index zu bekommen. Und genau das ist ja die Absicht, um darauf auch Einfluss ausüben zu können. Wegen der Komplexität und Vielfältigkeit aber, kann ich hier nur die wichtigsten Möglichkeiten und Auswirkungen aufführen und mit ihren Hauptaufgaben kurz beschreiben.

    Crawling-Geschwindigkeit
    Eine Möglichkeit, das Crawling zu beeinflussen, findet sich in den „Website-Einstellungen“. Dort kann man die maximale Crawling-Frequenz beschränken. In der Regel wird man diese Einstellungsmöglichkeit aber eher nicht nutzen und sich darauf verlassen, dass Google seinen Crawler nicht zu oft vorbeischickt.

    Indexierungsstatus
    Unter dem Punkt „Indexierungsstatus“ findet man eine Übersicht der indexierten Seiten. Sie können dort sehen, wie sich der Index im Zeitverlauf verändert hat. Die Aussagekraft ist leider recht gering. Eine bessere Möglichkeit, um ein Anwachsen der indexierten Seiten zu erfassen, ist die Nutzung von Tools wie z. B. dem Screaming Frog Log Analyzer. Dort kann man die Log-Dateien des Web-Servers analysieren lassen, um so zu sehen, welche Seiten Google heruntergeladen hat. Darüber hinaus können Sie als Seitenbetreiber auch eine Sitemap ihrer Webpräsenz hochladen, sodass eine bestmögliche Indexierung ihrer Webseite gewährleistet ist. Die Sitemap enthält alle relevanten Unterseiten einer Website und unterstützt Crawler, indem diese die Webseite schneller und effizienter analysieren können.

    Seiten ausblenden
    Manchmal gibt es auch Fälle, in denen Seiten, die sich im Index befinden, schnell wieder aus diesem entfernt werden müssen. Das ist z. B. dann notwendig, wenn einige Seiten rechtliche Probleme verursachen und zur Vermeidung von Strafen nicht mehr in den Suchergebnissen erscheinen sollten.

    Auch hierzu bietet die Google Search Console Hilfe an. Über den Punkt „URLs entfernen“ kann man konkrete Seiten aus den Suchergebnissen ausblenden und aus dem Cache entfernen. Damit die Seiten auch aus tatsächlich dem Index entfernt werden, ist es ratsam, am besten das Robots-Meta-Tag „noindex“ in die jeweilige(n) Seite(n) einbauen.

    Crawling-Fehler
    In der Rubrik „Crawling-Fehler“ werden recht unterschiedliche Fehler aufgeführt, die Google beim Crawling findet. Denn nicht jede Seite, die Google herunterladen möchte, liefert auch immer den gewünschten HTTP-Code 200 („Seite gefunden“). Manchmal findet Google z. B. über fehlerhafte interne oder externe Verlinkungen auch Seiten, die es eben nicht mehr gibt. Typisch ist da vor allem der Fehler 404 („Nicht gefunden“).

Was dürfen Suchmaschinen crawlen und welche Bedeutung hat das für Ihr SEO

Heutzutage ist der Webmaster nun nicht mehr abhängig vom Spider (oder Crawler) der Suchmaschine und muss nicht auf das nächste Crawling warten, damit die Website in den Index aufgenommen wird.




Wie wir gesehen haben, sind Webmaster und Seitenbetreiber in der Lage den Prozess des Crawlings nun bis zu einem gewissen Maß zu beeinflussen. Mit solchen Manipulationen sorgen sie selbst dann dafür, dass die Seite gecrawlt, indexiert und zu relevanten Suchanfragen in den Suchergebnissen an prominenter Stelle angezeigt wird.

Fazit und Ausblick

So steuern Sie den Crawling-Dampfer mit voller Fahrt!

Die Crew übernimmt die gezielte und dadurch effizientere Indexierung und die Anwendung der Suchmaschinenbetreiber-Richtlinien. Das verhilft Ihnen dazu, die Maschinen in ihrem Schiff mit voller Kraft zu nutzen.

Paaren Sie aktive Kontrolle mit Reaktionsfreude!

Steuern Sie das Crawling durch effizientere Indexierung! Google variiert ständig und arbeitet kontinuierlich mit Veränderungen. Bekanntermaßen nehmen Google und andere Suchmaschinenanbieter regelmäßig Änderungen an ihren Algorithmen vor. Es ist als Webmaster daher ratsam, stets auf dem Laufenden bleiben, um die Indexierung noch effizienter zu gestalten und vorhandene Schwachstellen im System schnellstmöglich beseitigen zu können.

Effizienteres Crawling durch die die Anwendung der Suchmaschinenbetreiber-Richtlinien!

Effizienteres Crawling durch die Beachtung der Richtlinien der Suchmaschinenbetreiber!Da wir uns zudem in dieser Betrachtung um die Beeinflussung des organischen Index einer Webseite gekümmert haben, erfordert dies auch, dass wir uns unbedingt an die Richtlinien der Suchmaschinenbetreiber halten sollten. Erreichen Sie also ein effizienteres Crawling durch die Beachtung der Richtlinien der Suchmaschinenbetreiber!

Die Möglichkeit bezahlter Anzeigen an prominenter Stelle noch vor den organischen Suchergebnissen anzeigen zu lassen, habe weiter oben bereits ausgeschlossen, da dies hier zu weit führen würde. Vielleicht kann bei Gelegenheit daraus einen eigenen Beitrag machen.

Weiterführende Links und Informationen

Crawl Budget Optimierung: So verbesserst Du das Crawling Deiner Website

Tags: , , , ,