Przejdź do treści
Can AI see it

Sprawdź, co widzi AI. Zmierz, ile to warte.

Jak zablokować crawlery AI w robots.txt

Crawlery AI odwiedzają Twoją stronę niezależnie od tego, czy je zaprosiłeś. GPTBot, Amazonbot, ClaudeBot, CCBot i dziesiątki innych pobierają Twoje treści, aby trenować duże modele językowe, zasilać produkty AI search lub dostarczać dane asystentom AI.

Podstawowym narzędziem do kontrolowania tego dostępu jest Twój plik robots.txt — zwykły plik tekstowy w katalogu głównym domeny, który mówi crawlerom, które części Twojej strony mogą odwiedzać. Każdy duży operator crawlerów AI publicznie zobowiązał się do przestrzegania dyrektyw robots.txt.

Ale blokowanie crawlerów AI to nie prosta decyzja tak/nie. Różne boty służą różnym celom, a zablokowanie niewłaściwych może odciąć Cię od ruchu napędzanego przez AI, który staje się coraz bardziej wartościowy. Ten przewodnik daje Ci potrzebne reguły robots.txt — i framework do podejmowania decyzji, które z nich zastosować.

Crawlery AI, które musisz znać

Zanim napiszesz reguły, musisz zrozumieć, co blokujesz. Crawlery AI dzielą się na trzy odrębne kategorie, każda z innymi konsekwencjami dla Twojej strony:

Kategoria Boty Co robią Czy odsyłają ruch?
Trening AI GPTBot, CCBot, Google-Extended, Bytespider Pobierają treści do trenowania modeli AI Zazwyczaj nie. CRR jest typowo bliski zeru.
AI Search OAI-SearchBot, PerplexityBot, Kagi Crawlują treści do zasilania AI search z cytowaniem źródeł Tak — linkują do źródeł, generując mierzalny ruch z odesłań.
Asystenci AI ChatGPT-User, MistralAI-User Pobierają konkretne strony na żądanie użytkowników podczas rozmów Ruch bezpośredni — użytkownik aktywnie poprosił AI o odwiedzenie Twojej strony.

To rozróżnienie ma znaczenie. Bezkrytyczne blokowanie wszystkich crawlerów AI oznacza, że blokujesz też te, które cytują Twoje treści i odsyłają realnych odwiedzających. Zrozumienie różnicy między botami treningowymi a botami search jest podstawą mądrej strategii blokowania.

Opcja 1: Zablokuj wszystkie crawlery treningowe AI

Jeśli Twoim celem jest uniemożliwienie wykorzystania Twoich treści do trenowania modeli AI, dodaj następujące reguły do pliku robots.txt:

# Block all known AI training crawlers
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: Amazonbot
Disallow: /

To blokuje najpopularniejsze crawlery treningowe AI. Każda dyrektywa User-agent celuje w konkretnego bota po nazwie, której używa w swoich żądaniach HTTP.

Co to robi: Uniemożliwia tym botom pobranie jakiejkolwiek strony Twojego serwisu. Twoje treści nie zostaną włączone do przyszłych rund treningowych modeli korzystających z tych crawlerów.

Czego to nie robi: Nie usuwa treści już pobranych. Jeśli GPTBot crawlował Twoją stronę przed dodaniem tych reguł, te treści mogą już być w danych treningowych OpenAI. robots.txt działa prospektywnie — kontroluje przyszły dostęp, nie przeszłe crawle.

Co tracisz: Jeśli zablokujesz GPTBot całkowicie, blokujesz też możliwość OpenAI aktualizowania swoich modeli Twoimi treściami. ChatGPT może nadal odwoływać się do starszych wersji Twoich stron lub całkowicie przestać się do nich odwoływać, gdy modele zostaną ponownie wytrenowane.

Opcja 2: Zablokuj boty treningowe, zachowaj boty AI search

To podejście, które większość właścicieli stron powinna rozważyć w pierwszej kolejności. Blokuje boty konsumujące treści wyłącznie do trenowania modeli, jednocześnie pozostawiając otwarte drzwi dla produktów AI search, które cytują źródła i odsyłają ruch.

# Block AI training crawlers — keep AI search crawlers
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

# Allow OAI-SearchBot (powers ChatGPT search with source links)
User-agent: OAI-SearchBot
Allow: /

# Allow ChatGPT-User (fetches pages when users ask)
User-agent: ChatGPT-User
Allow: /

# Allow PerplexityBot (AI search with citations)
User-agent: PerplexityBot
Allow: /

Ta strategia ma sens, gdy spojrzysz na dane. Boty AI search jak OAI-SearchBot i PerplexityBot mają zwykle mierzalnie wyższe wskaźniki Crawl-to-Referral Ratio (CRR) — co oznacza, że crawlują Twoje strony i powiązane produkty faktycznie odsyłają odwiedzających przez cytaty źródłowe. Boty czysto treningowe natomiast mają typowo CRR bliski zeru.

Rozróżnienie między GPTBot (trening) a OAI-SearchBot (search) jest szczególnie istotne w ekosystemie OpenAI. To oddzielne crawlery z oddzielnymi ciągami user-agent, więc możesz zablokować jednego i pozwolić drugiemu.

Opcja 3: Zablokuj crawlery AI dla określonych sekcji

Zamiast blokować boty na całej stronie, możesz ograniczyć dostęp do konkretnych katalogów — chroniąc treści premium, jednocześnie pozostawiając publiczne treści dostępne:

# Block AI crawlers from sensitive sections only
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/

User-agent: CCBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/

User-agent: ClaudeBot
Disallow: /premium/
Disallow: /members/
Disallow: /api/

# Allow everything else
User-agent: GPTBot
Allow: /blog/
Allow: /docs/

To podejście sprawdza się, gdy masz zarówno bezpłatne, jak i premium treści. Pozwól crawlerom AI indeksować Twoje wpisy blogowe i dokumentację — które korzystają z dystrybucji AI — jednocześnie trzymając sekcje płatne lub wrażliwe poza zasięgiem.

Kompletna lista: ciągi user-agent crawlerów AI

Oto kompletna lista ciągów user-agent powiązanych z AI, które możesz targetować w robots.txt, wraz z informacją o tym, co robi każdy crawler:

Ciąg User-Agent Operator Cel
GPTBot OpenAI Trening i ulepszanie modeli
OAI-SearchBot OpenAI Wyszukiwanie w czasie rzeczywistym z linkami źródłowymi
ChatGPT-User OpenAI Pobieranie stron podczas rozmów z użytkownikami
CCBot Common Crawl Otwarty zbiór danych używany przez wiele laboratoriów AI do treningu
Google-Extended Google Trening modelu Gemini (oddzielny od Googlebota)
ClaudeBot Anthropic Trening modelu Claude
Bytespider ByteDance Trening modeli dla produktów AI TikTok/Douyin
Diffbot Diffbot Ekstrakcja danych z sieci napędzana AI
PerplexityBot Perplexity Wyszukiwarka AI z cytowaniem źródeł
Amazonbot Amazon Odpowiedzi Alexa i usługi AI Amazon
FacebookBot Meta Trening AI dla dużych modeli językowych Meta
Applebot-Extended Apple Trening AI dla funkcji Apple Intelligence

Szczegółowe profile każdego z tych crawlerów — w tym metody weryfikacji, zakresy IP i zachowanie crawlowania — znajdziesz w katalogu botów.

Jak zweryfikować, czy Twój robots.txt działa

Dodanie reguł do robots.txt to dopiero połowa zadania. Musisz potwierdzić, że Twoje reguły są poprawnie sformatowane i że boty faktycznie ich przestrzegają.

Krok 1: Sprawdź, czy plik jest dostępny

# Check your current robots.txt
curl -s https://yoursite.com/robots.txt

# Verify a specific bot is blocked
curl -s https://yoursite.com/robots.txt | grep -A1 "GPTBot"

Twój robots.txt musi być serwowany pod dokładną ścieżką /robots.txt w katalogu głównym domeny. Jeśli zwraca 404, żaden crawler nie zobaczy Twoich reguł.

Krok 2: Zwaliduj składnię

Typowe błędy, które cicho psują reguły robots.txt:

  • Błędna nazwa user-agent. User-agent: GPT-Bot nie dopasuje się do GPTBot. Ciąg musi dokładnie odpowiadać temu, co crawler wysyła.
  • Brak pustych linii między regułami. Każdy blok user-agent powinien być oddzielony pustą linią dla przejrzystości. Choć niektóre parsery są wyrozumiałe, konsekwentne formatowanie zapobiega niejednoznaczności.
  • Sprzeczne reguły. Jeśli masz zarówno Allow: /blog/, jak i Disallow: / dla tego samego user-agenta, bardziej szczegółowa reguła (Allow) ma pierwszeństwo — ale nie wszystkie crawlery implementują to identycznie.
  • Problemy z BOM lub kodowaniem. robots.txt powinien być w UTF-8 bez byte order mark. Niektóre platformy CMS dodają niewidoczne znaki, które mogą zepsuć parsowanie.

Krok 3: Monitoruj przestrzeganie

Oto niewygodna prawda o robots.txt: to protokół dobrowolny. Nie ma mechanizmu technicznego wymuszania. Dobrze zachowujący się crawler uszanuje Twoje dyrektywy. Scraper podszywający się pod GPTBot zignoruje je całkowicie.

Aby wiedzieć, czy boty faktycznie przestrzegają Twoich reguł, musisz monitorować swój ruch. Jeśli zablokowałeś GPTBot w robots.txt, ale nadal widzisz żądania z jego user-agentem, albo:

  • Bot jeszcze nie ponownie odczytał Twojego robots.txt (crawlery sprawdzają okresowo, nie natychmiast)
  • Żądania pochodzą od fałszywego bota podszywającego się pod ciąg user-agent GPTBot

Oba scenariusze wymagają widoczności w Twój faktyczny ruch — tu właśnie detekcja botów i ciągły monitoring stają się niezbędne.

Framework decyzji: blokować czy pozwalać

Reguły robots.txt łatwo się pisze. Decyzja co napisać jest trudniejszym pytaniem. Oto praktyczny framework:

1. Mierz, zanim zablokujesz

Przed dodaniem reguł blokujących zrozum, co faktycznie dzieje się na Twojej stronie. Które crawlery AI odwiedzają? Jak często? Jakie strony konsumują? Bez tej linii bazowej podejmujesz decyzje na ślepo.

Sprawdź swoje logi serwera pod kątem ciągów user-agent botów AI lub użyj narzędzia do monitoringu botów, które śledzi aktywność crawlowania we wszystkich znanych botach.

2. Oddziel boty treningowe od botów search

Jak pokazuje powyższa tabela, nie wszystkie boty AI są takie same. Te, które trenują modele, i te, które zasilają wyszukiwanie z cytowaniem, mają bardzo różne propozycje wartości. Zablokowanie bota treningowego nic Cię nie kosztuje, jeśli operator tego bota nie odsyła ruchu. Zablokowanie bota AI search może kosztować Cię rosnące źródło wizyt z odesłań.

Wskaźnik Crawl-to-Referral Ratio (CRR) czyni to konkretnym. Jeśli bot ma CRR bliski zeru, blokowanie jest niskoryzykowne. Jeśli ma CRR na poziomie 30+, tracisz realny ruch go blokując.

3. Rozważ typ swoich treści

  • Wydawcy / strony mediowe: Najagresywniej blokują boty treningowe. Ich treści są ich produktem, a trening AI bez wynagrodzenia to bezpośrednie zagrożenie.
  • SaaS / firmy B2B: Często korzystają na dystrybucji AI. Jeśli ChatGPT poleca Twój produkt, gdy ktoś pyta o rozwiązania w Twojej kategorii, to darmowy marketing.
  • E-commerce: Wykorzystanie opisów produktów do treningu AI jest mniej niepokojące niż w przypadku treści redakcyjnych. AI search linkujące do Twoich stron produktowych jest bezpośrednio wartościowe.
  • Dokumentacja / strony techniczne: Bycie cytowanym przez asystentów AI buduje autorytet i przyciąga ruch od deweloperów szukających Twojej dokumentacji.

4. Regularnie przeglądaj i dostosowuj

Krajobraz crawlerów AI zmienia się ciągle. Pojawiają się nowe boty, operatorzy uruchamiają nowe produkty, a wzorce ruchu się przesuwają. Polityka robots.txt ustalona sześć miesięcy temu może już nie odzwierciedlać rzeczywistości.

Monitoruj, które boty są aktywne na Twojej stronie, śledź ich CRR w czasie i dostosowuj reguły blokowania, gdy dane to uzasadniają. To nie jest decyzja z kategorii „ustaw i zapomnij".

Czego robots.txt nie potrafi

Ważne jest jasne określenie ograniczeń robots.txt jako mechanizmu obronnego:

  • Nie blokuje dostępu technicznie. robots.txt to system honorowy. Każdy crawler może go zignorować. Jeśli złośliwy scraper odwiedza Twoją stronę, podając się za GPTBot, Twoja reguła Disallow go nie zatrzyma.
  • Nie usuwa treści retroaktywnie. Dane już pobrane przed dodaniem reguł blokujących mogą już znajdować się w zbiorach treningowych. robots.txt dotyczy tylko przyszłych crawli.
  • Nie rozróżnia typów stron inteligentnie. Możesz blokować po ścieżce, ale nie możesz zablokować „tylko stron produktowych" lub „tylko artykułów opublikowanych po 2025", chyba że znajduje to odzwierciedlenie w Twojej strukturze URL.
  • Jest publicznie widoczny. Każdy może przeczytać Twój robots.txt. Niektórzy argumentują, że publikowanie reguł blokowania pomaga scraperom wiedzieć dokładnie, co chronisz.

Dla stron potrzebujących silniejszej ochrony — faktycznego blokowania zamiast uprzejmych próśb — rozważ rate limiting, kontrolę dostępu opartą na IP lub rozwiązanie zarządzania botami na poziomie CDN. Ale dla zdecydowanej większości stron robots.txt w połączeniu z monitoringiem to właściwy punkt wyjścia.

Podsumowanie

Blokowanie crawlerów AI w robots.txt jest technicznie proste — kilka linii w pliku tekstowym. Prawdziwym wyzwaniem jest podejmowanie właściwych decyzji o blokowaniu, a to wymaga danych.

Nie blokuj na ślepo. Zrozum, które crawlery są aktywne na Twojej stronie, skategoryzuj je według celu, zmierz, czy odsyłają ruch, a następnie napisz reguły odzwierciedlające świadomą strategię. Blokuj boty, które biorą bez odwzajemniania. Zachowaj te, które generują realny ruch z odesłań przez cytowanie źródeł.

A gdy już ustawisz reguły, monitoruj, czy są respektowane — bo różnicę między legitymowym botem honorującym Twój robots.txt a fałszywym botem ignorującym go może ujawnić tylko aktywny monitoring.

Can AI See It monitoruje ponad 800 botów na Twojej stronie, śledzi, które crawlery AI przestrzegają Twoich reguł robots.txt, wykrywa fałszywe boty i mierzy wskaźnik Crawl-to-Referral Ratio dla każdego crawlera — aby Twoje decyzje o blokowaniu i dopuszczaniu opierały się na danych, nie na domysłach. Zacznij monitorować ruch botów