Robots.txt – die kleine Datei, die über Sichtbarkeit oder Unsichtbarkeit Ihrer Website entscheidet
Die robots.txt ist eine der am häufigsten unterschätzten Dateien auf einer Website. Sie besteht aus wenigen Zeilen Text, liegt im Stammverzeichnis Ihrer Domain und hat trotzdem die Macht, Ihre gesamte Website aus dem Google-Index zu entfernen – oder dafür zu sorgen, dass Suchmaschinen genau die Seiten finden und bewerten, die Ihnen Kunden bringen. Ein einziger Fehler in dieser Datei kann monatelange SEO-Arbeit zunichtemachen. Ein korrekt konfiguriertes robots.txt dagegen optimiert das Crawling Ihrer Website, spart Crawl-Budget und stellt sicher, dass Google sich auf die wirklich wichtigen Seiten konzentriert.
Laut Google verarbeitet der Googlebot täglich Milliarden von URLs. Jede Website erhält dabei ein begrenztes Crawl-Budget – die Anzahl der Seiten, die Google pro Besuch durchsucht. Bei einer kleinen Website mit 50 Seiten spielt das kaum eine Rolle. Bei einem Online-Shop mit 10.000 Produktseiten, einem Blog mit hunderten Beiträgen oder einer Website mit komplexer Architektur wird das Crawl-Budget zum kritischen Faktor. Die robots.txt steuert, wie effizient Google dieses Budget einsetzt.
Dieser Beitrag erklärt Ihnen, was die robots.txt genau tut, wie Sie sie für WordPress richtig einrichten, welche Fehler Sie unbedingt vermeiden sollten und wie Sie mit der richtigen Konfiguration Ihre SEO-Performance verbessern.
Sie sind nicht sicher, ob Ihre robots.txt korrekt konfiguriert ist? Lassen Sie uns das gemeinsam prüfen.
Was die robots.txt genau macht – einfach erklärt
Die robots.txt ist eine Textdatei, die Suchmaschinen-Crawlern mitteilt, welche Bereiche Ihrer Website sie besuchen dürfen und welche nicht. Sie liegt immer im Stammverzeichnis Ihrer Domain – also unter www.ihredomain.de/robots.txt. Jeder Suchmaschinen-Crawler, der Ihre Website besucht, ruft zuerst diese Datei ab, bevor er mit dem Crawling beginnt.
Die Datei arbeitet mit einfachen Anweisungen. Die wichtigste ist die Disallow-Direktive, die bestimmte Verzeichnisse oder Seiten vom Crawling ausschließt. Die Allow-Direktive erlaubt das Crawling bestimmter Bereiche innerhalb eines ansonsten blockierten Verzeichnisses. Und die Sitemap-Direktive verweist auf Ihre XML-Sitemap, damit Google alle wichtigen Seiten effizient finden kann.
Ein entscheidender Punkt, den viele Website-Betreiber nicht verstehen: Die robots.txt verhindert nicht die Indexierung einer Seite. Sie verhindert nur das Crawling. Google kann eine Seite, die per robots.txt blockiert ist, trotzdem indexieren – wenn andere Websites auf diese Seite verlinken. In diesem Fall erscheint die URL in den Suchergebnissen, aber ohne Snippet oder Beschreibung, weil Google den Inhalt nicht crawlen konnte. Um eine Seite wirklich aus dem Index zu entfernen, benötigen Sie ein noindex-Meta-Tag oder einen X-Robots-Tag – und die Seite darf nicht per robots.txt blockiert sein, damit Google das Tag überhaupt lesen kann.
Die robots.txt in WordPress – wie sie funktioniert und wo Sie sie finden
WordPress erstellt automatisch eine virtuelle robots.txt-Datei. Das bedeutet, es gibt keine physische Datei auf Ihrem Server – WordPress generiert den Inhalt dynamisch, wenn ein Crawler die URL /robots.txt aufruft. Die Standard-Konfiguration von WordPress ist sehr einfach: Sie erlaubt allen Crawlern den Zugriff auf die gesamte Website und blockiert lediglich das /wp-admin/-Verzeichnis.
Diese Standard-Konfiguration ist ein akzeptabler Ausgangspunkt, aber für eine professionelle Website nicht ausreichend. Sie haben zwei Möglichkeiten, die robots.txt in WordPress zu bearbeiten. Die erste Option ist über ein SEO-Plugin wie Rank Math oder Yoast SEO, die beide einen integrierten Editor für die robots.txt bieten. Die zweite Option ist die manuelle Erstellung einer physischen robots.txt-Datei, die Sie per FTP in das Stammverzeichnis Ihrer WordPress-Installation hochladen. Die physische Datei hat Vorrang vor der virtuellen – wenn beide existieren, verwendet WordPress die physische Version.
Für die meisten WordPress-Websites empfiehlt sich der Weg über das SEO-Plugin, weil Änderungen dort einfacher zu verwalten sind und weniger Fehlerquellen bestehen. Wichtig ist, dass Sie nach jeder Änderung die robots.txt über die Google Search Console testen, um sicherzustellen, dass keine wichtigen Seiten versehentlich blockiert werden.
Die optimale robots.txt-Konfiguration für WordPress-Websites
Eine gut konfigurierte robots.txt für WordPress folgt dem Prinzip: So wenig blockieren wie möglich, aber das Crawl-Budget gezielt auf die wichtigen Seiten lenken. Die aktuelle Best Practice empfiehlt eine minimale Konfiguration, weil zu viele Blockierungen mehr Probleme verursachen als sie lösen.
Der erste Block betrifft den User-Agent. Mit der Angabe User-agent: * richten Sie die folgenden Anweisungen an alle Suchmaschinen-Crawler gleichzeitig. In den allermeisten Fällen ist das ausreichend – separate Regeln für einzelne Crawler sind nur in Ausnahmefällen nötig, etwa wenn Sie bestimmte KI-Crawler wie GPTBot oder ClaudeBot blockieren möchten.
Der zweite Block definiert die Verzeichnisse, die vom Crawling ausgeschlossen werden sollen. Für WordPress-Websites sind das typischerweise das /wp-admin/-Verzeichnis (der Administrationsbereich), die /wp-login.php (die Login-Seite), das /wp-includes/-Verzeichnis (WordPress-Systemdateien), Tag- und Autorenarchive (wenn sie keinen einzigartigen Mehrwert bieten) und interne Suchseiten (die meist dünnen, duplizierten Content enthalten). Die wp-login.php als Allow-Ausnahme innerhalb des blockierten /wp-admin/-Bereichs wird empfohlen, weil WordPress die admin-ajax.php braucht, die im /wp-admin/-Verzeichnis liegt und für Frontend-Funktionen relevant sein kann.
Der dritte Block ist die Sitemap-Referenz. Am Ende der robots.txt sollte immer die URL Ihrer XML-Sitemap stehen. Das hilft Suchmaschinen, alle wichtigen Seiten effizient zu finden, auch wenn die interne Verlinkung nicht perfekt ist. Bei WordPress mit Rank Math oder Yoast SEO lautet die Sitemap-URL typischerweise ihredomain.de/sitemap_index.xml.
KI-Crawler kontrollieren – eine zunehmend wichtige Funktion der robots.txt
Seit 2024 nutzen immer mehr KI-Unternehmen Webcrawler, um Trainingsdaten für ihre Sprachmodelle zu sammeln. GPTBot (OpenAI), ClaudeBot (Anthropic), Bytespider (TikTok) und andere Crawler durchsuchen Websites systematisch nach Inhalten. Die robots.txt ist aktuell das einzige standardisierte Werkzeug, mit dem Website-Betreiber kontrollieren können, welche KI-Crawler ihre Inhalte nutzen dürfen.
Die Entscheidung, ob Sie KI-Crawler blockieren sollten, hängt von Ihrer Situation ab. Für Unternehmen, deren Geschäftsmodell auf exklusiven Inhalten basiert – etwa Fachverlage, Recherchedienste oder spezialisierte Wissensdatenbanken – kann das Blockieren sinnvoll sein, um die Verwertung ihrer Inhalte zu kontrollieren. Für die meisten KMU und Dienstleister ist es dagegen vorteilhaft, KI-Crawlern den Zugriff zu erlauben: Wenn Ihr Content in KI-Antworten zitiert wird, steigert das Ihre Sichtbarkeit in einer neuen Suchlandschaft, in der immer mehr Nutzer KI-Assistenten statt klassische Suchmaschinen verwenden.
Die Syntax ist einfach: Mit User-agent: GPTBot und Disallow: / blockieren Sie den OpenAI-Crawler komplett. Analog funktioniert es für andere KI-Crawler. Beachten Sie, dass diese Blockierung auf Freiwilligkeit basiert – nicht alle Crawler halten sich an robots.txt-Anweisungen, aber die großen, seriösen Anbieter tun es.
Ihre technische SEO soll professionell aufgestellt sein? Jetzt Beratung anfragen.
Die fünf häufigsten robots.txt-Fehler und ihre Konsequenzen
Fehler Nummer eins: Die gesamte Website blockieren. Es klingt unglaublich, aber es passiert regelmäßig. Eine einzige Zeile – Disallow: / – sperrt alle Suchmaschinen-Crawler aus und macht Ihre Website bei Google unsichtbar. Besonders häufig passiert das nach einem Website-Relaunch, wenn die Testumgebung eine Disallow-All-Regel hatte und diese beim Go-Live nicht entfernt wurde. Die Konsequenz ist verheerend: Innerhalb weniger Wochen fallen alle Rankings weg, und die Wiederherstellung dauert Monate, selbst nachdem der Fehler behoben ist.
Fehler Nummer zwei: CSS- und JavaScript-Dateien blockieren. Manche Website-Betreiber blockieren die Verzeichnisse /wp-content/themes/ oder /wp-content/plugins/, um Suchmaschinen den Zugriff auf Theme- und Plugin-Dateien zu verwehren. Das Problem: Google muss CSS und JavaScript laden können, um Ihre Website korrekt zu rendern. Wenn diese Dateien blockiert sind, sieht Google nur den Rohtext ohne Layout, kann keine Bilder laden und kann die mobile Darstellung nicht bewerten. Das wirkt sich direkt negativ auf Core Web Vitals und damit auf Ihre Rankings aus.
Fehler Nummer drei: Wichtige Seiten versehentlich blockieren. Eine zu breit gefasste Disallow-Regel kann unbeabsichtigt Seiten blockieren, die Sie im Index haben möchten. Wenn Sie zum Beispiel Disallow: /shop/ setzen, um die Warenkorbseite zu blockieren, sperren Sie gleichzeitig alle Produktseiten, die mit /shop/ beginnen. Ein einziger Tippfehler oder eine falsch gesetzte Wildcard kann hunderte Seiten aus dem Google-Index entfernen – ohne dass Sie es sofort bemerken.
Fehler Nummer vier: Robots.txt zum Verhindern der Indexierung nutzen. Die robots.txt blockiert das Crawling, nicht die Indexierung. Wenn Google eine URL kennt – etwa durch externe Links – kann die Seite trotzdem im Index erscheinen, nur ohne Snippet. Wer sensible Seiten wirklich aus dem Index entfernen will, muss ein noindex-Meta-Tag verwenden. Und dafür darf die Seite nicht per robots.txt blockiert sein, weil Google das Tag sonst nicht lesen kann. Dieses Paradoxon verstehen viele nicht – und blockieren gleichzeitig per robots.txt und noindex, was sich gegenseitig aufhebt.
Fehler Nummer fünf: Die robots.txt nie aktualisieren. Websites verändern sich – neue Verzeichnisse kommen hinzu, alte werden umstrukturiert, Plugins erstellen neue Pfade. Eine robots.txt, die vor drei Jahren konfiguriert wurde, kann heute veraltet sein und Bereiche blockieren, die längst umbenannt wurden, oder neue Bereiche nicht abdecken, die blockiert werden sollten. Mindestens zweimal jährlich sollte die robots.txt überprüft und an die aktuelle Website-Struktur angepasst werden.
Kostenloser Technical-SEO-Check für Ihre Website
Wir prüfen Ihre robots.txt, Sitemap, Core Web Vitals und Crawling-Konfiguration – und zeigen Ihnen in 15 Minuten, wo technische Probleme Ihre Rankings bremsen.
Crawl-Budget optimieren – warum das für größere Websites entscheidend ist
Das Crawl-Budget beschreibt die Anzahl der Seiten, die Google bei einem Besuch Ihrer Website durchsucht. Für kleine Websites mit unter 100 Seiten ist das Crawl-Budget selten ein Problem – Google schafft es problemlos, alle Seiten regelmäßig zu crawlen. Bei größeren Websites mit tausenden Seiten wird das Crawl-Budget zum strategischen Faktor, und die robots.txt spielt eine zentrale Rolle bei der Optimierung.
Wenn Google sein Crawl-Budget auf Seiten verschwendet, die keinen SEO-Wert haben – etwa interne Suchseiten, gefilterte Produktlisten, Druckversionen oder veraltete Archivseiten – fehlt dieses Budget für die Seiten, die tatsächlich ranken sollen. Die Folge: Wichtige neue Inhalte werden verspätet indexiert, Aktualisierungen werden nicht rechtzeitig erkannt, und die gesamte SEO-Performance leidet.
Durch gezielte Disallow-Regeln in der robots.txt können Sie Google dazu bringen, das Crawl-Budget effizient einzusetzen. Seiten mit dünnem Content, Paginierungsseiten ohne einzigartigen Inhalt, interne Suchseiten, Filterseiten in Online-Shops und Tag-Archive ohne Mehrwert sind typische Kandidaten für eine Blockierung. Das Ergebnis: Google konzentriert sich auf Ihre wichtigsten Seiten, crawlt und indexiert diese häufiger und reagiert schneller auf Änderungen.
Robots.txt testen und überwachen – die richtigen Werkzeuge
Eine robots.txt sollte nie ungetestet live gehen. Google bietet in der Search Console ein eigenes Test-Tool, mit dem Sie prüfen können, ob bestimmte URLs durch Ihre robots.txt blockiert werden. Geben Sie die URL einer wichtigen Seite ein und das Tool zeigt Ihnen sofort, ob der Googlebot Zugriff hat oder nicht. Dieses Tool sollten Sie nach jeder Änderung an der robots.txt verwenden.
Darüber hinaus sollten Sie die robots.txt regelmäßig im Kontext der gesamten Crawling-Situation überprüfen. Die Google Search Console zeigt Ihnen im Bericht zur Seitenindexierung, welche Seiten indexiert sind, welche ausgeschlossen wurden und warum. Wenn Sie dort den Ausschlussgrund „Durch robots.txt blockiert” bei Seiten sehen, die eigentlich indexiert sein sollten, haben Sie ein Problem, das sofort behoben werden muss.
Automatische Monitoring-Tools wie Screaming Frog, Sitebulb oder Ahrefs können Ihre robots.txt regelmäßig prüfen und Sie warnen, wenn sich etwas ändert oder wenn Konfigurationsfehler erkannt werden. Für Websites mit vielen Seiten oder häufigen Änderungen ist ein solches automatisiertes Monitoring die sicherste Methode, um Probleme frühzeitig zu erkennen.
Technische SEO-Probleme kosten Sie Rankings und Kunden – jetzt Analyse anfordern.
Häufig gestellte Fragen zur robots.txt
Was passiert, wenn meine Website keine robots.txt hat?
Wenn keine robots.txt vorhanden ist, crawlen Suchmaschinen Ihre gesamte Website ohne Einschränkungen. Das ist für kleine Websites akzeptabel, aber nicht ideal. Ohne robots.txt verschwendet Google möglicherweise Crawl-Budget auf unwichtige Seiten wie den WordPress-Admin-Bereich, Tag-Archive oder interne Suchseiten. Eine korrekt konfigurierte robots.txt hilft Google, sich auf die relevanten Seiten zu konzentrieren, und verbessert damit die Effizienz des Crawlings.
Kann die robots.txt meine Website vor Hackern schützen?
Nein, die robots.txt bietet keinerlei Schutz vor unbefugtem Zugriff. Die Datei ist öffentlich zugänglich – jeder kann sie unter ihredomain.de/robots.txt einsehen. Sie teilt Crawlern lediglich mit, welche Bereiche nicht gecrawlt werden sollen. Bösartige Crawler und Hacker ignorieren robots.txt-Anweisungen ohnehin. Für den Schutz sensibler Bereiche benötigen Sie serverseitige Zugangsbeschränkungen wie Passwortschutz, IP-Whitelisting oder Firewalls.
Wie oft sollte ich meine robots.txt überprüfen?
Mindestens zweimal jährlich und zusätzlich nach jedem größeren Website-Update, Relaunch, Plugin-Wechsel oder Strukturänderung. Ein Website-Relaunch ist der häufigste Anlass für robots.txt-Fehler, weil die Test-Konfiguration versehentlich übernommen wird. Nach jeder Änderung sollten Sie die Datei über den robots.txt-Tester in der Google Search Console überprüfen und sicherstellen, dass alle wichtigen Seiten weiterhin für Google zugänglich sind.
Soll ich KI-Crawler wie GPTBot in der robots.txt blockieren?
Das hängt von Ihrer Situation ab. Für die meisten KMU und Dienstleister ist es vorteilhaft, KI-Crawler nicht zu blockieren. Wenn Ihre Inhalte in KI-gestützten Antworten zitiert werden, erhöht das Ihre Sichtbarkeit in einer Suchlandschaft, die sich zunehmend von klassischen Suchergebnissen hin zu KI-generierten Antworten verschiebt. Für Unternehmen mit exklusiven, kostenpflichtigen Inhalten kann eine Blockierung dagegen sinnvoll sein, um die unkontrollierte Nutzung ihrer Inhalte zu verhindern.


