Zum Hauptinhalt springen
Can AI see it

Erfahre, was KI sieht. Miss, was es wert ist.

KI-Crawler mit robots.txt blockieren

KI-Crawler besuchen Ihre Website, ob Sie sie eingeladen haben oder nicht. GPTBot, Amazonbot, ClaudeBot, CCBot und Dutzende weitere laden Ihre Inhalte herunter, um grosse Sprachmodelle zu trainieren, KI-Suchprodukte zu betreiben oder KI-Assistenten zu fuettern.

Das primaere Werkzeug zur Kontrolle dieses Zugriffs ist Ihre robots.txt-Datei -- eine einfache Textdatei im Stammverzeichnis Ihrer Domain, die Crawlern mitteilt, welche Teile Ihrer Website sie besuchen duerfen. Jeder grosse KI-Crawler-Betreiber hat sich oeffentlich verpflichtet, robots.txt-Direktiven zu respektieren.

Aber KI-Crawler zu blockieren ist keine einfache Ein/Aus-Entscheidung. Verschiedene Bots dienen verschiedenen Zwecken, und die falschen zu blockieren kann Sie von KI-getriebenem Traffic abschneiden, der zunehmend wertvoll wird. Dieser Leitfaden gibt Ihnen die robots.txt-Regeln, die Sie brauchen -- und ein Framework fuer die Entscheidung, welche Regeln Sie verwenden sollten.

Die KI-Crawler, die Sie kennen muessen

Bevor Sie Regeln schreiben, muessen Sie verstehen, was Sie blockieren. KI-Crawler fallen in drei verschiedene Kategorien, jede mit unterschiedlichen Auswirkungen auf Ihre Website:

Kategorie Bots Was sie tun Senden sie Traffic zurueck?
KI-Training GPTBot, CCBot, Google-Extended, Bytespider Laden Inhalte herunter, um KI-Modelle zu trainieren Grundsaetzlich nein. CRR ist typischerweise nahe Null.
KI-Suche OAI-SearchBot, PerplexityBot, Kagi Crawlen Inhalte fuer KI-Suche mit Quellenangaben Ja -- sie verlinken zurueck zu Quellen und generieren messbaren Referral-Traffic.
KI-Assistenten ChatGPT-User, MistralAI-User Rufen bestimmte Seiten im Auftrag von Nutzern waehrend Gespraechen ab Direkter Traffic -- ein Nutzer hat die KI aktiv gebeten, Ihre Seite zu besuchen.

Dieser Unterschied ist wichtig. Alle KI-Crawler wahllos zu blockieren bedeutet, dass Sie auch diejenigen blockieren, die Ihre Inhalte zitieren und echte Besucher senden. Den Unterschied zwischen Trainings-Bots und Such-Bots zu verstehen, ist die Grundlage einer klugen Blockierungsstrategie.

Option 1: Alle KI-Trainings-Crawler blockieren

Wenn Ihr Ziel ist, zu verhindern, dass Ihre Inhalte zum Training von KI-Modellen verwendet werden, fuegen Sie Folgendes zu Ihrer robots.txt-Datei hinzu:

# Alle bekannten KI-Trainings-Crawler blockieren
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: Amazonbot
Disallow: /

Dies blockiert die gaengigsten KI-Trainings-Crawler. Jede User-agent-Direktive zielt auf einen bestimmten Bot ueber den Namen, den er in seinen HTTP-Anfragen verwendet.

Was das bewirkt: Verhindert, dass diese Bots eine Seite Ihrer Website herunterladen. Ihre Inhalte werden nicht in kuenftige Trainingslaeufe fuer Modelle aufgenommen, die diese Crawler verwenden.

Was das nicht bewirkt: Es entfernt keine bereits aufgenommenen Inhalte. Wenn GPTBot Ihre Website gecrawlt hat, bevor Sie diese Regeln hinzugefuegt haben, koennten diese Inhalte bereits in OpenAIs Trainingsdaten sein. robots.txt wirkt vorwaertsgerichtet -- es kontrolliert kuenftigen Zugriff, nicht vergangene Crawls.

Was Sie verlieren: Wenn Sie GPTBot komplett blockieren, blockieren Sie auch OpenAIs Faehigkeit, seine Modelle mit Ihren Inhalten aktuell zu halten. ChatGPT koennte weiterhin aeltere Versionen Ihrer Seiten referenzieren oder aufhoeren, sie ueberhaupt zu referenzieren, wenn Modelle neu trainiert werden.

Option 2: Trainings-Bots blockieren, KI-Such-Bots behalten

Dies ist der Ansatz, den die meisten Website-Betreiber zuerst in Betracht ziehen sollten. Er blockiert Bots, die Ihre Inhalte rein fuer Modelltraining konsumieren, laesst aber die Tuer offen fuer KI-Suchprodukte, die Quellen zitieren und Traffic zuruecksenden.

# KI-Trainings-Crawler blockieren — KI-Such-Crawler erlauben
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

# OAI-SearchBot erlauben (betreibt ChatGPT-Suche mit Quellenlinks)
User-agent: OAI-SearchBot
Allow: /

# ChatGPT-User erlauben (ruft Seiten auf Nutzeranfrage ab)
User-agent: ChatGPT-User
Allow: /

# PerplexityBot erlauben (KI-Suche mit Quellenangaben)
User-agent: PerplexityBot
Allow: /

Diese Strategie ergibt Sinn, wenn man die Daten betrachtet. KI-Such-Bots wie OAI-SearchBot und PerplexityBot haben tendenziell messbar hoehere Crawl-to-Referral Ratios (CRR) -- das heisst, sie crawlen Ihre Seiten und die zugehoerigen Produkte senden tatsaechlich Besucher ueber Quellenangaben zurueck. Reine Trainings-Bots dagegen haben typischerweise ein CRR nahe Null.

Die Unterscheidung zwischen GPTBot (Training) und OAI-SearchBot (Suche) ist besonders wichtig im OpenAI-Oekosystem. Es sind separate Crawler mit separaten user-agent-Strings, sodass Sie einen blockieren und den anderen erlauben koennen.

Option 3: KI-Crawler fuer bestimmte Bereiche blockieren

Anstatt Bots seitenweit zu blockieren, koennen Sie den Zugriff auf bestimmte Verzeichnisse einschraenken -- Premium-Inhalte schuetzen und oeffentliche Inhalte zugaenglich lassen:

# KI-Crawler nur fuer sensible Bereiche blockieren
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/

User-agent: CCBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/

User-agent: ClaudeBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/

# Alles andere erlauben
User-agent: GPTBot
Allow: /blog/
Allow: /docs/

Dieser Ansatz funktioniert gut, wenn Sie sowohl kostenlose als auch Premium-Inhalte haben. Lassen Sie KI-Crawler Ihre Blog-Beitraege und Dokumentation indexieren -- die von KI-Distribution profitieren -- waehrend Sie zahlungspflichtige oder sensible Bereiche abschirmen.

Vollstaendige Liste: KI-Crawler user-agent-Strings

Hier ist eine umfassende Referenz der KI-bezogenen user-agent-Strings, die Sie in robots.txt ansprechen koennen, zusammen mit der Funktion jedes Crawlers:

User-Agent-String Betreiber Zweck
GPTBot OpenAI Modelltraining und -verbesserung
OAI-SearchBot OpenAI Echtzeit-Suche mit Quellenlinks
ChatGPT-User OpenAI Seitenabruf waehrend Nutzergespraechen
CCBot Common Crawl Offener Datensatz, der von vielen KI-Labors fuer Training genutzt wird
Google-Extended Google Gemini-Modelltraining (getrennt von Googlebot)
ClaudeBot Anthropic Modelltraining fuer Claude
Bytespider ByteDance Modelltraining fuer TikTok/Douyin-KI-Produkte
Diffbot Diffbot KI-gestuetzte Web-Datenextraktion
PerplexityBot Perplexity KI-Suchmaschine mit Quellenangaben
Amazonbot Amazon Alexa-Antworten und Amazon-KI-Dienste
FacebookBot Meta KI-Training fuer Metas LLMs
Applebot-Extended Apple KI-Training fuer Apple Intelligence-Funktionen

Fuer detaillierte Profile jedes dieser Crawler -- einschliesslich Verifizierungsmethoden, IP-Bereichen und Crawl-Verhalten -- siehe den Bot-Katalog.

So ueberpruefen Sie, ob Ihre robots.txt funktioniert

Regeln zur robots.txt hinzuzufuegen ist nur die halbe Arbeit. Sie muessen bestaetigen, dass Ihre Regeln korrekt formatiert sind und dass Bots sie tatsaechlich befolgen.

Schritt 1: Pruefen, ob Ihre Datei erreichbar ist

# Ihre aktuelle robots.txt pruefen
curl -s https://ihrewebsite.de/robots.txt

# Pruefen, ob ein bestimmter Bot blockiert ist
curl -s https://ihrewebsite.de/robots.txt | grep -A1 "GPTBot"

Ihre robots.txt muss unter dem exakten Pfad /robots.txt im Stammverzeichnis Ihrer Domain ausgeliefert werden. Wenn sie einen 404 zurueckgibt, sieht kein Crawler Ihre Regeln.

Schritt 2: Syntax validieren

Haeufige Fehler, die robots.txt-Regeln stillschweigend brechen:

  • Falscher user-agent-Name. User-agent: GPT-Bot stimmt nicht mit GPTBot ueberein. Der String muss exakt dem entsprechen, was der Crawler sendet.
  • Fehlende Leerzeilen zwischen Regeln. Jeder user-agent-Block sollte zur Klarheit durch eine Leerzeile getrennt sein. Obwohl einige Parser tolerant sind, verhindert konsistente Formatierung Mehrdeutigkeiten.
  • Widerspruechliche Regeln. Wenn Sie sowohl Allow: /blog/ als auch Disallow: / fuer denselben user-agent haben, hat die spezifischere Regel (Allow) Vorrang -- aber nicht alle Crawler implementieren dies identisch.
  • BOM- oder Encoding-Probleme. robots.txt sollte UTF-8 ohne Byte Order Mark sein. Einige CMS-Plattformen fuegen unsichtbare Zeichen hinzu, die das Parsen stoeren koennen.

Schritt 3: Compliance ueberwachen

Hier ist die unangenehme Wahrheit ueber robots.txt: Es ist ein freiwilliges Protokoll. Es gibt keinen technischen Durchsetzungsmechanismus. Ein wohlerzogener Crawler wird Ihre Direktiven respektieren. Ein Scraper, der sich als GPTBot ausgibt, wird sie komplett ignorieren.

Um zu wissen, ob Bots Ihre Regeln tatsaechlich befolgen, muessen Sie Ihren Traffic ueberwachen. Wenn Sie GPTBot in robots.txt blockiert haben, aber weiterhin Anfragen von seinem user-agent sehen, dann entweder:

  • Der Bot hat Ihre robots.txt noch nicht erneut gecrawlt (Crawler pruefen periodisch, nicht sofort)
  • Die Anfragen stammen von einem Fake-Bot, der den user-agent-String von GPTBot faelscht

Beide Szenarien erfordern Einblick in Ihren tatsaechlichen Traffic -- hier werden Bot-Erkennung und fortlaufendes Monitoring essenziell.

Das Block-oder-Erlauben-Entscheidungs-Framework

robots.txt-Regeln sind einfach zu schreiben. Die Entscheidung, was geschrieben werden soll, ist die schwerere Frage. Hier ist ein praktisches Framework:

1. Messen, bevor Sie blockieren

Bevor Sie Blockierungsregeln hinzufuegen, verstehen Sie, was tatsaechlich auf Ihrer Website passiert. Welche KI-Crawler besuchen Sie? Wie oft? Welche Seiten konsumieren sie? Ohne diese Ausgangsbasis treffen Sie Entscheidungen blind.

Pruefen Sie Ihre Server-Logs auf KI-Bot-user-agent-Strings oder verwenden Sie ein Bot-Monitoring-Tool, das Crawl-Aktivitaet ueber alle bekannten Bots verfolgt.

2. Trainings-Bots von Such-Bots trennen

Wie die Tabelle oben zeigt, sind nicht alle KI-Bots gleich. Diejenigen, die Modelle trainieren, und diejenigen, die Suche mit Quellenangaben betreiben, haben sehr unterschiedliche Wertversprechen. Einen Trainings-Bot zu blockieren kostet Sie nichts, wenn der Betreiber dieses Bots keinen Traffic zuruecksendet. Einen KI-Such-Bot zu blockieren koennte Sie eine wachsende Quelle von Referral-Besuchen kosten.

Das Crawl-to-Referral Ratio (CRR) macht dies konkret. Wenn ein Bot ein CRR nahe Null hat, ist das Blockieren risikoarm. Wenn er ein CRR von 30+ hat, geben Sie echten Traffic auf, indem Sie ihn blockieren.

3. Ihren Inhaltstyp beruecksichtigen

  • Verlage / Medienseiten: Am aggressivsten beim Blockieren von Trainings-Bots. Ihre Inhalte sind ihr Produkt, und KI-Training ohne Verguetung ist eine direkte Bedrohung.
  • SaaS / B2B-Unternehmen: Profitieren oft von KI-Distribution. Wenn ChatGPT Ihr Produkt empfiehlt, wenn jemand nach Loesungen in Ihrer Kategorie fragt, ist das kostenlose Werbung.
  • E-Commerce: Produktbeschreibungen, die fuer KI-Training genutzt werden, sind weniger besorgniserregend als redaktionelle Inhalte. KI-Suche, die auf Ihre Produktseiten verlinkt, ist direkt wertvoll.
  • Dokumentation / technische Seiten: Von KI-Assistenten zitiert zu werden, baut Autoritaet auf und treibt Traffic von Entwicklern, die Ihre Dokumentation suchen.

4. Regelmaessig ueberpruefen und anpassen

Die KI-Crawler-Landschaft aendert sich staendig. Neue Bots erscheinen, Betreiber lancieren neue Produkte, und die Traffic-Muster verschieben sich. Eine robots.txt-Richtlinie, die Sie vor sechs Monaten festgelegt haben, spiegelt moeglicherweise nicht mehr die Realitaet wider.

Ueberwachen Sie, welche Bots auf Ihrer Website aktiv sind, verfolgen Sie deren CRR im Zeitverlauf und passen Sie Ihre Blockierungsregeln an, wenn die Daten es rechtfertigen. Dies ist keine einmalige Einstellung.

Was robots.txt nicht kann

Es ist wichtig, die Grenzen von robots.txt als Schutzmechanismus klar zu benennen:

  • Es blockiert technisch keinen Zugriff. robots.txt ist ein Ehrensystem. Jeder Crawler kann es ignorieren. Wenn ein boesartiger Scraper Ihre Website besucht und vorgibt, GPTBot zu sein, wird Ihre Disallow-Regel ihn nicht aufhalten.
  • Es entfernt keine Inhalte rueckwirkend. Bereits gecrawlte Daten koennen bereits in Trainingsdatensaetzen sein. robots.txt betrifft nur kuenftige Crawls.
  • Es unterscheidet nicht intelligent zwischen Seitentypen. Sie koennen nach Pfad blockieren, aber Sie koennen nicht "nur Produktseiten" oder "nur Artikel nach 2025" blockieren, ohne dass dies in Ihrer URL-Struktur widergespiegelt wird.
  • Es ist oeffentlich sichtbar. Jeder kann Ihre robots.txt lesen. Einige argumentieren, dass das Veroeffentlichen Ihrer Blockierungsregeln Scrapern genau zeigt, was Sie schuetzen.

Fuer Websites, die staerkeren Schutz benoetigen -- tatsaechliches Blockieren statt hoeflicher Anfragen -- erwaegen Sie Rate-Limiting, IP-basierte Zugriffskontrollen oder eine Bot-Management-Loesung auf CDN-Ebene. Aber fuer die grosse Mehrheit der Websites ist robots.txt in Kombination mit Monitoring der richtige Ausgangspunkt.

Das Fazit

KI-Crawler mit robots.txt zu blockieren ist technisch unkompliziert -- ein paar Zeilen in einer Textdatei. Die eigentliche Herausforderung besteht darin, die richtigen Blockierungsentscheidungen zu treffen, und das erfordert Daten.

Blockieren Sie nicht blind. Verstehen Sie, welche Crawler auf Ihrer Website aktiv sind, kategorisieren Sie sie nach Zweck, messen Sie, ob sie Traffic zuruecksenden, und schreiben Sie dann Regeln, die eine fundierte Strategie widerspiegeln. Blockieren Sie die Bots, die nehmen, ohne zurueckzugeben. Behalten Sie die, die durch Quellenangaben echten Referral-Traffic bringen.

Und sobald Sie Ihre Regeln festgelegt haben, ueberwachen Sie, ob sie respektiert werden -- denn den Unterschied zwischen einem legitimen Bot, der Ihre robots.txt beachtet, und einem Fake-Bot, der sie ignoriert, kann nur aktives Monitoring aufdecken.

Can AI See It ueberwacht 800+ Bots auf Ihrer Website, verfolgt, welche KI-Crawler Ihre robots.txt-Regeln respektieren, erkennt Fake-Bots und misst das Crawl-to-Referral Ratio fuer jeden Crawler -- damit Ihre Block/Erlauben-Entscheidungen auf Daten basieren, nicht auf Vermutungen. Starten Sie Ihr Bot-Traffic-Monitoring