Toolypet - Developer Tools Collection

Rolle und Grenzen von Robots.txt

Robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern mitteilt, welche Seiten gecrawlt werden sollen. Sie ist Teil des 1994 eingefuehrten Robots Exclusion Protocol und wird seit den Anfaengen des Webs als Standard verwendet.

https://example.com/robots.txt

Aber ein wichtiger Punkt muss klargestellt werden: robots.txt ist eine Empfehlung. Gut entwickelte Suchmaschinen-Bots respektieren sie, aber boesartige Bots oder Web-Scraper koennen sie ignorieren. Daher sollte robots.txt nicht als Sicherheitswerkzeug verwendet werden. Sensible Daten muessen durch Authentifizierung und Zugangskontrolle geschuetzt werden.

Wie Crawler robots.txt verarbeiten

Wenn Suchmaschinen-Crawler eine Website besuchen, pruefen sie zuerst die robots.txt. Die Verarbeitungsreihenfolge ist wie folgt:

/robots.txt anfordern
Wenn Datei nicht existiert - Alle Seiten zum Crawlen erlaubt
Wenn Datei existiert - Crawlen gemaess Regeln
Passenden User-agent-Block finden
Spezifischste Regel anwenden

Wichtig bei der Regelzuordnung: Wenn Allow und Disallow auf denselben Pfad angewendet werden, hat die spezifischere Regel Vorrang. Bei gleicher Spezifitaet hat Allow Vorrang.

Detaillierte Syntax-Anleitung

Grundlegende Direktiven

User-agent: *
Disallow: /admin/
Allow: /admin/public/
Sitemap: https://example.com/sitemap.xml
Crawl-delay: 10

Direktive	Beschreibung	Beispiel
User-agent	Ziel-Crawler festlegen (`*` fuer alle Bots)	`User-agent: Googlebot`
Disallow	Crawling-Verbot fuer Pfad	`Disallow: /private/`
Allow	Crawling erlauben (Ausnahme zu Disallow)	`Allow: /private/open/`
Sitemap	Sitemap-URL (absoluter Pfad)	`Sitemap: https://...`
Crawl-delay	Crawling-Intervall (Sekunden) - nur von einigen Bots unterstuetzt	`Crawl-delay: 10`

Wildcards und Pfadende-Markierung

Robots.txt unterstuetzt eingeschraenktes Pattern-Matching:

* - Beliebige Zeichenkette (0 oder mehr)
$ - Ende des Pfads

# Alle .pdf-Dateien blockieren
Disallow: /*.pdf$

# URLs mit Query-Parametern blockieren
Disallow: /*?

# Bestimmte Parameter blockieren
Disallow: /*?sort=
Disallow: /*?filter=

# URLs mit Session-ID blockieren
Disallow: /*sessionid

# Alle PHP-Dateien in bestimmtem Verzeichnis blockieren
Disallow: /scripts/*.php$

Hinweis: Wildcards werden nur fuer Pfad-Matching verwendet. Regulaere Ausdruecke werden nicht unterstuetzt.

Wichtige Suchmaschinen- und KI-Crawler

Es ist nuetzlich, die wichtigsten Bots zu kennen, die Websites besuchen:

Suchmaschinen-Bots

User-agent	Dienst	Beschreibung
Googlebot	Google Suche	Fuer Websuche
Googlebot-Image	Google Bilder	Fuer Bildersuche
Bingbot	Bing	Microsoft-Suche
Yeti	Naver	Koreanische Suche
Baiduspider	Baidu	Chinesische Suche
DuckDuckBot	DuckDuckGo	Datenschutz-Suchmaschine

KI-Crawler (seit 2024 stark zunehmend)

User-agent	Dienst	Beschreibung
GPTBot	OpenAI	ChatGPT-Trainingsdaten
ChatGPT-User	OpenAI	ChatGPT-Browsing-Funktion
CCBot	Common Crawl	Offene Datensatzsammlung
anthropic-ai	Anthropic	Claude-Trainingsdaten
Claude-Web	Anthropic	Claude-Websuche
Google-Extended	Google	Gemini-Trainingsdaten

Um KI-Trainings-Crawler zu blockieren:

# KI-Trainings-Crawler blockieren
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Praxisbeispiele: Situationsabhaengige Konfiguration

Alles erlauben (Standard)

User-agent: *
Allow: /

Alles blockieren (Entwicklungs-/Staging-Umgebung)

User-agent: *
Disallow: /

Allgemeine Website

User-agent: *
Allow: /

# Admin-Bereich
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /dashboard/

# Persoenlicher Benutzerbereich
Disallow: /account/
Disallow: /profile/
Disallow: /my-*/

# Suchergebnisse (Doppelte Inhalte vermeiden)
Disallow: /search/
Disallow: /*?q=
Disallow: /*?s=

# Temporaere/Entwicklungsdateien
Disallow: /tmp/
Disallow: /staging/
Disallow: /_*/

# Sitemap
Sitemap: https://example.com/sitemap.xml

E-Commerce-Website

User-agent: *
Allow: /

# Kaufprozess (Crawling nicht erforderlich)
Disallow: /cart/
Disallow: /checkout/
Disallow: /order/

# Benutzerkonto
Disallow: /my-account/
Disallow: /wishlist/

# Gefilterte/Sortierte Produktlisten (Doppelte vermeiden)
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /*?size=
Disallow: /*&

# Interne Suche
Disallow: /search/

# Preisvergleichs-Bots erlauben (optional)
User-agent: PriceSpider
Allow: /

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/product-sitemap.xml

Blog/Medien-Website

User-agent: *
Allow: /

# Tag/Kategorieseiten (optional - bei Bedenken wegen doppelter Inhalte)
Disallow: /tag/
Disallow: /category/page/

# Autorenarchive
Disallow: /author/

# Anhangsseiten
Disallow: /attachment/

# Direkter Zugriff auf Mediendateien
Allow: /wp-content/uploads/

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/news-sitemap.xml

Haeufige Fehler und Loesungen

1. Fehlender Schraegstrich

# Falsch - Blockiert alle Pfade, die mit "admin" beginnen
Disallow: admin

# Richtig - Blockiert nur das /admin/-Verzeichnis
Disallow: /admin/

2. Gross-/Kleinschreibungsfehler

Direktiven-Namen unterscheiden Gross-/Kleinschreibung:

# Falsch
user-agent: *
disallow: /admin/

# Richtig
User-agent: *
Disallow: /admin/

3. Rendering-Probleme durch CSS/JS-Blockierung

Seit 2015 rendert Google Seiten, um Inhalte zu verstehen. Das Blockieren von CSS und JavaScript kann dazu fuehren, dass Google die Seite nicht richtig versteht:

# Falsch - Rendering-Ressourcen blockiert
Disallow: /css/
Disallow: /js/
Disallow: *.css$
Disallow: *.js$

# Richtig - Statische Ressourcen erlauben
Allow: /css/
Allow: /js/
Allow: /images/

4. Versehentliche Blockierung der gesamten Website

# Sehr gefaehrlich! Blockiert die gesamte Website
User-agent: *
Disallow: /

Wenn diese Einstellung in der Produktion deployed wird, kann die Website aus den Suchergebnissen verschwinden.

robots.txt vs. meta robots vs. X-Robots-Tag

Die drei Methoden haben unterschiedliche Zwecke und Prioritaeten:

Methode	Ort	Zweck	Crawling	Indexierung
robots.txt	Stammverzeichnis	Crawling-Steuerung	O	X
meta robots	HTML head	Indexierungs-Steuerung	X	O
X-Robots-Tag	HTTP-Header	Nicht-HTML-Ressourcen	X	O

Wichtig: Auch wenn mit robots.txt blockiert, kann eine Seite in den Suchergebnissen erscheinen. Wenn andere Websites darauf verlinken, kennt Google die URL und kann sie ohne Inhalt mit nur der URL anzeigen.

Um vollstaendig aus den Suchergebnissen zu entfernen:

<!-- Im head der betreffenden Seite hinzufuegen -->
<meta name="robots" content="noindex, nofollow">

Methoden zur robots.txt-Validierung

Google Search Console

Search Console aufrufen
Im linken Menue "Einstellungen" - "robots.txt"
Mit "Live-Test"-Funktion URL-Blockierungsstatus pruefen

Ueber Kommandozeile pruefen

# Aktuellen robots.txt-Inhalt pruefen
curl https://example.com/robots.txt

# Aus Sicht eines bestimmten Bots simulieren (Python erforderlich)
pip install robotexclusionrulesparser
python -c "
import robotexclusionrulesparser as rerp
rp = rerp.RobotExclusionRulesParser()
rp.fetch('https://example.com/robots.txt')
print(rp.is_allowed('Googlebot', '/admin/'))
"

Crawl-Budget-Optimierung

Bei grossen Websites ist das "Crawl Budget" wichtig. Dies ist die Menge an Crawling-Ressourcen, die Google einer Website zuweist. Durch Blockieren unnoetiger Seiten mit robots.txt werden wichtige Seiten haeufiger gecrawlt.

Seiten, die Crawl-Budget verschwenden:

Gefilterte/sortierte Produktlisten
URLs mit Session-IDs
Endlose Kalender
Interne Suchergebnisse
Druckversionen von Seiten

Toolypet Robots.txt Generator

Auch komplexe robots.txt einfach erstellen:

Zu blockierende Pfadmuster auswaehlen
Spezifische Bot-Blockierung einrichten
Sitemap-URL eingeben
Mit Vorschau pruefen
Fertige Datei herunterladen

Mit einer korrekten robots.txt nutzen Sie Ihr Crawling-Budget effizient und sorgen dafuer, dass wichtige Inhalte in den Suchergebnissen gut erscheinen.