Question 1

Was bewirkt robots.txt eigentlich?

Accepted Answer

Es ist eine reine Textdatei im Wurzelverzeichnis deiner Website, die kompatiblen Crawlern über nach User-agent gruppierte Allow- und Disallow-Regeln mitteilt, welche Pfade sie anfordern dürfen und welche nicht. Es ist eine Bitte, keine Durchsetzung: Wohlerzogene Bots wie der Googlebot halten sich daran, aber es blockiert keinen Zugriff für Tools, die es ignorieren – verwende es also niemals, um wirklich sensible Daten zu verbergen.

Question 2

Wie funktionieren die Voreinstellungen zum Blockieren von KI-Crawlern?

Accepted Answer

Jede Checkbox hängt eine eigene Gruppe an, etwa 'User-agent: GPTBot' gefolgt von 'Disallow: /', die diesen Crawler bittet, keine Seite abzurufen. GPTBot ist der Crawler von OpenAI, ClaudeBot der von Anthropic, CCBot ist Common Crawl, und Google-Extended steuert die Nutzung deiner Inhalte für die KI-Modelle von Google. Das Aktivieren einer Box fügt ihre Gruppe hinzu, das Deaktivieren entfernt sie.

Question 3

Was ist der Unterschied zwischen Allow und Disallow?

Accepted Answer

Disallow listet Pfadpräfixe auf, die ein Crawler nicht anfordern sollte, während Allow einen spezifischeren Unterpfad innerhalb eines gesperrten Ordners wieder freigibt. Disallow: /files/ mit Allow: /files/public/ blockiert beispielsweise den Ordner, hält aber den Unterordner public crawlbar. Trage in jedem Feld einen Pfad pro Zeile ein.

Question 4

Wohin lege ich die erzeugte Datei?

Accepted Answer

Speichere sie als Datei mit genau dem Namen robots.txt und lade sie in das Wurzelverzeichnis deiner Domain hoch, sodass sie unter https://yourdomain.com/robots.txt erreichbar ist. Crawler schauen nur dort nach; eine robots.txt in einem Unterordner wird ignoriert. Nutze die Schaltfläche Herunterladen, um sie direkt zu speichern.

Question 5

Wird etwas von dem, was ich eingebe, an einen Server gesendet?

Accepted Answer

Nein. Die robots.txt wird vollständig in deinem Browser mit JavaScript erzeugt. Deine Pfade, der User-Agent, die Sitemap-URL und deine Auswahl werden niemals hochgeladen, gespeichert oder übertragen, sodass du Regeln für private oder noch nicht veröffentlichte Websites bedenkenlos entwerfen kannst.

robots.txt-Generator

Was ist robots.txt-Generator?

So verwendest du robots.txt-Generator

Beispiele

Admin und Staging blockieren

Innerhalb eines blockierten Ordners erlauben

KI-Crawler abmelden

Häufig gestellte Fragen

Verwandte Tools

Hreflang-Tag-Generator

JSON-LD-Generator

Keyword-Dichte-Prüfer

Meta-Tag-Generator