Toolypet
Back to Blog
SEO

Der vollstaendige Robots.txt Guide: Suchmaschinen-Crawler steuern

Erfahren Sie, wie Sie eine robots.txt-Datei schreiben und Suchmaschinen-Crawler effektiv verwalten.

Toolypet Team6 min read
Der vollstaendige Robots.txt Guide: Suchmaschinen-Crawler steuern

Rolle und Grenzen von Robots.txt

Robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die Suchmaschinen-Crawlern mitteilt, welche Seiten gecrawlt werden sollen. Sie ist Teil des 1994 eingefuehrten Robots Exclusion Protocol und wird seit den Anfaengen des Webs als Standard verwendet.

https://example.com/robots.txt

Aber ein wichtiger Punkt muss klargestellt werden: robots.txt ist eine Empfehlung. Gut entwickelte Suchmaschinen-Bots respektieren sie, aber boesartige Bots oder Web-Scraper koennen sie ignorieren. Daher sollte robots.txt nicht als Sicherheitswerkzeug verwendet werden. Sensible Daten muessen durch Authentifizierung und Zugangskontrolle geschuetzt werden.

Wie Crawler robots.txt verarbeiten

Wenn Suchmaschinen-Crawler eine Website besuchen, pruefen sie zuerst die robots.txt. Die Verarbeitungsreihenfolge ist wie folgt:

  1. /robots.txt anfordern
  2. Wenn Datei nicht existiert - Alle Seiten zum Crawlen erlaubt
  3. Wenn Datei existiert - Crawlen gemaess Regeln
  4. Passenden User-agent-Block finden
  5. Spezifischste Regel anwenden

Wichtig bei der Regelzuordnung: Wenn Allow und Disallow auf denselben Pfad angewendet werden, hat die spezifischere Regel Vorrang. Bei gleicher Spezifitaet hat Allow Vorrang.

Detaillierte Syntax-Anleitung

Grundlegende Direktiven

User-agent: *
Disallow: /admin/
Allow: /admin/public/
Sitemap: https://example.com/sitemap.xml
Crawl-delay: 10
DirektiveBeschreibungBeispiel
User-agentZiel-Crawler festlegen (* fuer alle Bots)User-agent: Googlebot
DisallowCrawling-Verbot fuer PfadDisallow: /private/
AllowCrawling erlauben (Ausnahme zu Disallow)Allow: /private/open/
SitemapSitemap-URL (absoluter Pfad)Sitemap: https://...
Crawl-delayCrawling-Intervall (Sekunden) - nur von einigen Bots unterstuetztCrawl-delay: 10

Wildcards und Pfadende-Markierung

Robots.txt unterstuetzt eingeschraenktes Pattern-Matching:

  • * - Beliebige Zeichenkette (0 oder mehr)
  • $ - Ende des Pfads
# Alle .pdf-Dateien blockieren
Disallow: /*.pdf$

# URLs mit Query-Parametern blockieren
Disallow: /*?

# Bestimmte Parameter blockieren
Disallow: /*?sort=
Disallow: /*?filter=

# URLs mit Session-ID blockieren
Disallow: /*sessionid

# Alle PHP-Dateien in bestimmtem Verzeichnis blockieren
Disallow: /scripts/*.php$

Hinweis: Wildcards werden nur fuer Pfad-Matching verwendet. Regulaere Ausdruecke werden nicht unterstuetzt.

Wichtige Suchmaschinen- und KI-Crawler

Es ist nuetzlich, die wichtigsten Bots zu kennen, die Websites besuchen:

Suchmaschinen-Bots

User-agentDienstBeschreibung
GooglebotGoogle SucheFuer Websuche
Googlebot-ImageGoogle BilderFuer Bildersuche
BingbotBingMicrosoft-Suche
YetiNaverKoreanische Suche
BaiduspiderBaiduChinesische Suche
DuckDuckBotDuckDuckGoDatenschutz-Suchmaschine

KI-Crawler (seit 2024 stark zunehmend)

User-agentDienstBeschreibung
GPTBotOpenAIChatGPT-Trainingsdaten
ChatGPT-UserOpenAIChatGPT-Browsing-Funktion
CCBotCommon CrawlOffene Datensatzsammlung
anthropic-aiAnthropicClaude-Trainingsdaten
Claude-WebAnthropicClaude-Websuche
Google-ExtendedGoogleGemini-Trainingsdaten

Um KI-Trainings-Crawler zu blockieren:

# KI-Trainings-Crawler blockieren
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Praxisbeispiele: Situationsabhaengige Konfiguration

Alles erlauben (Standard)

User-agent: *
Allow: /

Alles blockieren (Entwicklungs-/Staging-Umgebung)

User-agent: *
Disallow: /

Allgemeine Website

User-agent: *
Allow: /

# Admin-Bereich
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /dashboard/

# Persoenlicher Benutzerbereich
Disallow: /account/
Disallow: /profile/
Disallow: /my-*/

# Suchergebnisse (Doppelte Inhalte vermeiden)
Disallow: /search/
Disallow: /*?q=
Disallow: /*?s=

# Temporaere/Entwicklungsdateien
Disallow: /tmp/
Disallow: /staging/
Disallow: /_*/

# Sitemap
Sitemap: https://example.com/sitemap.xml

E-Commerce-Website

User-agent: *
Allow: /

# Kaufprozess (Crawling nicht erforderlich)
Disallow: /cart/
Disallow: /checkout/
Disallow: /order/

# Benutzerkonto
Disallow: /my-account/
Disallow: /wishlist/

# Gefilterte/Sortierte Produktlisten (Doppelte vermeiden)
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /*?size=
Disallow: /*&

# Interne Suche
Disallow: /search/

# Preisvergleichs-Bots erlauben (optional)
User-agent: PriceSpider
Allow: /

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/product-sitemap.xml

Blog/Medien-Website

User-agent: *
Allow: /

# Tag/Kategorieseiten (optional - bei Bedenken wegen doppelter Inhalte)
Disallow: /tag/
Disallow: /category/page/

# Autorenarchive
Disallow: /author/

# Anhangsseiten
Disallow: /attachment/

# Direkter Zugriff auf Mediendateien
Allow: /wp-content/uploads/

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/news-sitemap.xml

Haeufige Fehler und Loesungen

1. Fehlender Schraegstrich

# Falsch - Blockiert alle Pfade, die mit "admin" beginnen
Disallow: admin

# Richtig - Blockiert nur das /admin/-Verzeichnis
Disallow: /admin/

2. Gross-/Kleinschreibungsfehler

Direktiven-Namen unterscheiden Gross-/Kleinschreibung:

# Falsch
user-agent: *
disallow: /admin/

# Richtig
User-agent: *
Disallow: /admin/

3. Rendering-Probleme durch CSS/JS-Blockierung

Seit 2015 rendert Google Seiten, um Inhalte zu verstehen. Das Blockieren von CSS und JavaScript kann dazu fuehren, dass Google die Seite nicht richtig versteht:

# Falsch - Rendering-Ressourcen blockiert
Disallow: /css/
Disallow: /js/
Disallow: *.css$
Disallow: *.js$

# Richtig - Statische Ressourcen erlauben
Allow: /css/
Allow: /js/
Allow: /images/

4. Versehentliche Blockierung der gesamten Website

# Sehr gefaehrlich! Blockiert die gesamte Website
User-agent: *
Disallow: /

Wenn diese Einstellung in der Produktion deployed wird, kann die Website aus den Suchergebnissen verschwinden.

robots.txt vs. meta robots vs. X-Robots-Tag

Die drei Methoden haben unterschiedliche Zwecke und Prioritaeten:

MethodeOrtZweckCrawlingIndexierung
robots.txtStammverzeichnisCrawling-SteuerungOX
meta robotsHTML headIndexierungs-SteuerungXO
X-Robots-TagHTTP-HeaderNicht-HTML-RessourcenXO

Wichtig: Auch wenn mit robots.txt blockiert, kann eine Seite in den Suchergebnissen erscheinen. Wenn andere Websites darauf verlinken, kennt Google die URL und kann sie ohne Inhalt mit nur der URL anzeigen.

Um vollstaendig aus den Suchergebnissen zu entfernen:

<!-- Im head der betreffenden Seite hinzufuegen -->
<meta name="robots" content="noindex, nofollow">

Methoden zur robots.txt-Validierung

Google Search Console

  1. Search Console aufrufen
  2. Im linken Menue "Einstellungen" - "robots.txt"
  3. Mit "Live-Test"-Funktion URL-Blockierungsstatus pruefen

Ueber Kommandozeile pruefen

# Aktuellen robots.txt-Inhalt pruefen
curl https://example.com/robots.txt

# Aus Sicht eines bestimmten Bots simulieren (Python erforderlich)
pip install robotexclusionrulesparser
python -c "
import robotexclusionrulesparser as rerp
rp = rerp.RobotExclusionRulesParser()
rp.fetch('https://example.com/robots.txt')
print(rp.is_allowed('Googlebot', '/admin/'))
"

Crawl-Budget-Optimierung

Bei grossen Websites ist das "Crawl Budget" wichtig. Dies ist die Menge an Crawling-Ressourcen, die Google einer Website zuweist. Durch Blockieren unnoetiger Seiten mit robots.txt werden wichtige Seiten haeufiger gecrawlt.

Seiten, die Crawl-Budget verschwenden:

  • Gefilterte/sortierte Produktlisten
  • URLs mit Session-IDs
  • Endlose Kalender
  • Interne Suchergebnisse
  • Druckversionen von Seiten

Toolypet Robots.txt Generator

Auch komplexe robots.txt einfach erstellen:

  1. Zu blockierende Pfadmuster auswaehlen
  2. Spezifische Bot-Blockierung einrichten
  3. Sitemap-URL eingeben
  4. Mit Vorschau pruefen
  5. Fertige Datei herunterladen

Mit einer korrekten robots.txt nutzen Sie Ihr Crawling-Budget effizient und sorgen dafuer, dass wichtige Inhalte in den Suchergebnissen gut erscheinen.

SEORobots.txtCrawlerSearch Engine