Przejdź do treści
Can AI see it

Sprawdź, co widzi AI. Zmierz, ile to warte.

Jak wykryć ruch botów na Twojej stronie

Gdzieś między 40% a 50% całego ruchu w internecie pochodzi od botów. Część z niego jest niezbędna — Googlebot indeksujący Twoje strony w wyszukiwarce, GPTBot skanujący Twoje treści dla produktów AI, UptimeRobot sprawdzający, czy Twoja strona jest online. Część jest niepożądana — scrapery kradnące Twoje treści, fałszywe boty podszywające się pod legitymowe user-agenty lub agresywne crawlery spalające zasoby Twojego serwera.

Problem polega na tym, że większość właścicieli stron nie potrafi odróżnić jednych od drugich. Standardowe narzędzia analityczne jak Google Analytics śledzą tylko odwiedzających wykonujących JavaScript, co oznacza, że pomijają większość ruchu botów. Boty, które nie wykonują JavaScript — a jest to zdecydowana większość — są niewidoczne w Twoim panelu analitycznym.

Oto pięć metod wykrywania ruchu botów — od najprostszej do najbardziej kompleksowej.

Metoda 1: Sprawdź logi serwera

Każde żądanie do Twojej strony jest rejestrowane w logach dostępu serwera, niezależnie od tego, czy odwiedzający wykonuje JavaScript. To najbardziej fundamentalne źródło prawdy o tym, co trafia na Twoją stronę.

Typowy wpis w logu Apache lub Nginx wygląda tak:

66.249.66.1 - - [08/Feb/2026:10:15:32 +0000] "GET /pricing/ HTTP/2" 200 14523 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Ta pojedyncza linia mówi Ci adres IP, żądaną stronę, kod statusu HTTP i ciąg user-agent. Ta ostatnia część — user-agent — jest sposobem, w jaki większość botów się identyfikuje.

Aby uzyskać szybki obraz aktywności botów, możesz przeszukać logi pod kątem znanych ciągów user-agent:

grep -i "bot\|crawler\|spider" /var/log/nginx/access.log | awk '{print $14}' | sort | uniq -c | sort -rn | head -20

To daje Ci rankingową listę najaktywniejszych botów. To przybliżony punkt wyjścia, ale działa — i jest darmowy.

Ograniczenia: Ręczna analiza logów nie skaluje się. Jeśli Twoja strona otrzymuje miliony żądań, parsowanie surowych logów staje się niepraktyczne. Nie możesz też ufać ciągom user-agent na słowo — każdy może ustawić swój user-agent na „Googlebot". I nie każdy ma bezpośredni dostęp do logów serwera, szczególnie na hostingu zarządzanym lub platformach serverless.

Metoda 2: Analizuj ciągi user-agent

Ciąg user-agent jest głównym sposobem, w jaki legitymowe boty się identyfikują. Większość renomowanych crawlerów podaje swoją nazwę, wersję i link do dokumentacji. Na przykład:

  • Googlebot: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • AhrefsBot: Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)
  • GPTBot: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

Analiza user-agent jest przydatna do identyfikowania, które boty odwiedzają Twoją stronę i jak często. Możesz zbudować obraz kompozycji ruchu botów: jaki procent to crawlery wyszukiwarek, jaki procent to boty AI, jaki procent to narzędzia SEO, i tak dalej.

Wyzwaniem jest skala. W internecie działa setki znanych botów, każdy z własnymi wzorcami user-agent. Niektóre boty używają wielu ciągów user-agent. Niektóre zmieniają swoje ciągi między wersjami. Utrzymywanie aktualnej bazy znanych sygnatur botów to znaczący, ciągły wysiłek.

I co kluczowe, ciągi user-agent mogą być sfałszowane. Scraper może łatwo ustawić swój user-agent na Googlebot/2.1 i Twoja analiza user-agent policzy go jako legitymowy ruch Google. Co prowadzi nas do następnej metody.

Metoda 3: Zweryfikuj tożsamość bota odwrotnym DNS

Tu wykrywanie botów robi się poważne. Jeśli żądanie twierdzi, że pochodzi od Googlebota, możesz to zweryfikować, sprawdzając, czy źródłowy adres IP faktycznie należy do Google.

Standardowa procedura to forward-confirmed reverse DNS (FCrDNS):

  1. Weź adres IP żądania i wykonaj odwrotny DNS lookup
  2. Sprawdź, czy wynikowa nazwa hosta należy do oczekiwanej domeny (np. *.googlebot.com lub *.google.com dla Googlebota)
  3. Wykonaj forward DNS lookup na tej nazwie hosta, aby potwierdzić, że rozwiązuje się z powrotem na oryginalny IP
# Krok 1: Odwrotny DNS
host 66.249.66.1
# Zwraca: crawl-66-249-66-1.googlebot.com

# Krok 2: DNS w przód dla potwierdzenia
host crawl-66-249-66-1.googlebot.com
# Zwraca: 66.249.66.1 ✓ Dopasowanie potwierdzone

Jeśli odwrotny DNS nie rozwiązuje się do domeny należącej do operatora bota lub jeśli forward lookup nie pasuje, żądanie jest prawdopodobnie fałszywym botem.

Różni operatorzy botów używają różnych metod weryfikacji. Google publikuje swoje zakresy IP. Bing używa nazw hostów *.search.msn.com. Niektórzy operatorzy, jak OpenAI, publikują listy IP, które możesz bezpośrednio sprawdzić. Każdy bot ma własne podejście do weryfikacji, które jest udokumentowane w jego profilu operatora.

Ograniczenia: Odwrotne DNS lookup dodają opóźnienia i nie mogą być wykonywane na każdym żądaniu w czasie rzeczywistym przy dużym wolumenie ruchu. Każdy operator bota używa innej metody weryfikacji, więc musisz utrzymywać logikę weryfikacji per bot. A niektóre mniejsze boty w ogóle nie publikują metod weryfikacji.

Metoda 4: Szukaj sygnałów behawioralnych

Poza weryfikacją tożsamości, ruch botów często ma charakterystyczne wzorce behawioralne, które różnią się od ludzkich odwiedzających. Oto na co zwrócić uwagę:

Wzorce żądań

  • Nienaturalnie regularne taktowanie. Boty często wykonują żądania w precyzyjnych odstępach — dokładnie co 5 sekund, co 30 sekund. Ludzie nie przeglądają stron z taką regularnością.
  • Sekwencyjne crawlowanie URL-i. Bot może żądać /page-1, /page-2, /page-3 po kolei. Ludzie skaczą między stronami według zainteresowań.
  • Wysoka częstotliwość żądań z jednego IP. Setki żądań na minutę z jednego adresu to prawie na pewno automatyzacja.
  • Brak nagłówków referrer. Większość ludzkich wizyt pochodzi z wyszukiwarki, linku w mediach społecznościowych lub innej strony. Bezpośrednie żądania bez referrera w dużej ilości sugerują automatyzację.

Odciski techniczne

  • Brak wykonywania JavaScript. Większość botów nie uruchamia JavaScript. Jeśli odwiedzający ładuje stronę, ale nigdy nie wykonuje kodu po stronie klienta, to prawdopodobnie bot.
  • Brakujące lub nietypowe nagłówki. Legitymowe przeglądarki wysyłają spójny zestaw nagłówków HTTP (Accept-Language, Accept-Encoding itp.). Boty często wysyłają niekompletne lub niestandardowe nagłówki.
  • Brak cookies lub zachowania sesyjnego. Boty zazwyczaj nie utrzymują cookies między żądaniami, chyba że są specjalnie zaprojektowane do symulowania sesji przeglądarki.
  • Żądania robots.txt lub sitemap.xml. Legitymowe crawlery zazwyczaj żądają tych plików przed crawlowaniem. Odwiedzający o dużym wolumenie, który nigdy nie żąda robots.txt, może być scraperem ignorującym Twoje dyrektywy crawlowania.

Wzorce dostępu

  • Celowanie w określone typy treści. Bot atakujący Twoje strony produktowe, ignorując wszystko inne, może być scraperem cen. Bot skoncentrowany na treściach blogowych może być crawlerem treningowym AI.
  • Odwiedzanie stron, które ludzie rzadko odwiedzają. Głęboka paginacja, stare strony archiwalne lub URL-e odkrywalne tylko przez sitemapę — duży ruch na tych stronach sugeruje zautomatyzowane crawlowanie.

Ograniczenia: Analiza behawioralna wyłapuje wzorce, nie pojedyncze żądania. Wymaga zbierania i agregowania danych w czasie oraz samodzielnego budowania pipeline'u analizy. Większość właścicieli stron nie ma infrastruktury, by robić to na dużą skalę.

Metoda 5: Użyj dedykowanej platformy monitoringu botów

Metody 1–4 działają, ale każda ma ten sam fundamentalny problem: wymagają samodzielnego budowania i utrzymywania całego pipeline'u detekcji. Potrzebujesz dostępu do logów, aktualnej bazy botów, logiki weryfikacji per bot i warstwy analitycznej na wierzchu. Dla większości zespołów utrzymanie tego w dłuższej perspektywie jest nierealistyczne.

Dedykowana platforma monitoringu botów obsługuje to od początku do końca. Tak właśnie zbudowaliśmy Can AI See It (CASI). Oto jak podejście platformowe rozwiązuje ograniczenia ręcznej detekcji:

Problem ręcznej detekcji Jak CASI to rozwiązuje
Utrzymywanie bazy 800+ sygnatur botów i wzorców user-agent Ciągle aktualizowana baza botów z automatyczną identyfikacją każdego żądania
Uruchamianie odwrotnego DNS / weryfikacji IP na każdym żądaniu nie skaluje się Automatyczna weryfikacja za pomocą odwrotnego DNS, opublikowanych zakresów IP, fingerprintingu i metod specyficznych dla operatora — stosowana do każdego żądania asynchronicznie
Brak sposobu na odróżnienie prawdziwego Googlebota od sfałszowanego w surowych logach Detekcja fałszywych botów flaguje każde żądanie, gdzie user-agent nie pasuje do zweryfikowanego operatora
Agregowanie i wizualizacja aktywności botów wymaga custom narzędzi Dashboardy per bot: wolumen crawlowania, najczęściej odwiedzane ścieżki, wskaźniki błędów i trendy w czasie
Brak dostępu do logów serwera na hostingu zarządzanym / platformach CDN Integracja na warstwie edge CDN lub przez lekki plugin WordPress — bez potrzeby dostępu do logów serwera

Ale sama detekcja nie odpowiada na najważniejsze pytanie: czy ten ruch botów jest faktycznie wartościowy? Tu podejście wykracza poza to, co analiza logów kiedykolwiek może Ci powiedzieć.

CASI śledzi nie tylko, które boty crawlują Twoją stronę, ale ile ruchu z odesłań powiązane platformy odsyłają. Jeśli GPTBot pobrał 8000 Twoich stron w zeszłym miesiącu, to czy produkty OpenAI odesłały jakichkolwiek odwiedzających? Wskaźnik Crawl-to-Referral Ratio (CRR) — wizyty z odesłań na 1000 crawli — daje Ci tę odpowiedź dla każdego bota indywidualnie. Zamienia surowe dane detekcji w podstawę realnych decyzji o tym, które boty pozwalać, a które blokować.

Dobre boty vs. złe boty: detekcja to nie tylko blokowanie

Częstym błędem jest traktowanie całej detekcji botów jako ćwiczenia z bezpieczeństwa — znajdź boty, zablokuj je. Ale duża część ruchu botów jest wartościowa lub co najmniej nieszkodliwa:

Kategoria bota Przykłady Dlaczego to ważne
Crawlery wyszukiwarek Googlebot, Bingbot Indeksują Twoje strony w wynikach wyszukiwania. Ich zablokowanie zabije Twój ruch organiczny.
Boty AI search OAI-SearchBot, PerplexityBot Zasilają produkty AI search, które mogą cytować Cię i linkować. Mają mierzalne wartości CRR.
Boty treningowe AI GPTBot, CCBot Trenują modele AI na Twoich treściach. Często mają CRR bliski zeru — biorą, ale nie zwracają ruchu.
Narzędzia SEO AhrefsBot, SemrushBot Indeksują Twoją stronę do analiz SEO. Twój zespół może polegać na danych, które zbierają.
Media społecznościowe FacebookExternalHit, LinkedInBot Generują podglądy linków, gdy ktoś udostępnia Twój URL. Ich zablokowanie psuje udostępnianie w social mediach.
Monitoring Pingdom, UptimeRobot Sprawdzają, czy Twoja strona działa. Prawdopodobnie sam je skonfigurowałeś.

Celem wykrywania ruchu botów nie jest blokowanie wszystkiego, co nie jest człowiekiem. Chodzi o uzyskanie widoczności — aby dokładnie wiedzieć, co trafia na Twoją stronę, zweryfikować, że jest tym, za co się podaje, i podejmować świadome decyzje o tym, co pozwalać.

Problem fałszywych botów

Fałszywe boty to żądania, które podają się za znanego crawlera, ale w rzeczywistości pochodzą z zupełnie innego źródła. Scraper może ustawić swój user-agent na Googlebot/2.1, ponieważ wiele stron daje Googlebotowi priorytet, omijając limity żądań lub paywalle.

Jest to częstsze, niż większość właścicieli stron zdaje sobie sprawę. Bez weryfikacji nie masz sposobu, by stwierdzić, że 15% Twojego ruchu „Googlebot" to tak naprawdę scrapery ukrywające się za nazwą Google.

Fałszywy ruch botów powoduje kilka problemów:

  • Zanieczyszczona analityka. Jeśli mierzysz ruch botów, aby podejmować decyzje (np. które crawlery pozwalać w robots.txt), fałszywe dane botów prowadzą do błędnych wniosków.
  • Ryzyko bezpieczeństwa. Fałszywe boty są często używane do scrapingu, skanowania podatności lub credential stuffing — aktywności ukrytych za zaufaną tożsamością.
  • Zmarnowane zasoby. Twój serwer odpowiada na żądania fałszywych botów tak samo jak na prawdziwe, zużywając przepustowość i moc obliczeniową bez żadnego pożytku.

Jedynym niezawodnym sposobem na wyłapanie fałszywych botów jest automatyczna weryfikacja — odwrotny DNS, sprawdzanie zakresów IP i metody walidacji publikowane przez operatorów — stosowane konsekwentnie do każdego żądania. CASI automatycznie flaguje fałszywe boty, więc widzisz dokładnie, ile Twojego ruchu „Googlebot" lub „GPTBot" jest autentyczne, a ile sfałszowane.

Co zrobić po wykryciu ruchu botów

Detekcja to pierwszy krok. Gdy masz widoczność w ruch botów, oto jak na tym działać:

1. Sprawdź swój robots.txt

Teraz, gdy wiesz, które boty są aktywne na Twojej stronie, sprawdź, czy Twój robots.txt odzwierciedla Twoje faktyczne preferencje. Czy blokujesz boty, które chcesz dopuścić? Dopuszczasz boty, które wolałbyś blokować? Monitoring robots.txt w CASI śledzi zmiany w Twoim pliku i wykrywa niespójności — na przykład bota, który jest zablokowany w robots.txt, ale nadal crawluje Twoją stronę. Praktyczne reguły robots.txt znajdziesz w naszym przewodniku o blokowaniu crawlerów AI.

2. Zbadaj fałszywe boty

Jeśli Twój proces weryfikacji ujawni fałszywy ruch Googlebot lub GPTBot, te żądania wymagają dalszego dochodzenia. Sprawdź, do jakich stron uzyskują dostęp, jak często i z jakich zakresów IP. Ten ruch prawie nigdy nie jest łagodny.

3. Zmierz wartość legitymowych botów

W przypadku crawlerów AI, detekcja to dopiero początek. Następne pytanie brzmi: czy crawlowanie przekłada się na realne wizyty? Śledzenie odesłań AI w CASI mierzy dokładnie, ilu ludzkich użytkowników przychodzi z platform AI — ChatGPT, Perplexity, Google AI Overviews i innych. W połączeniu ze wskaźnikiem Crawl-to-Referral Ratio daje to obiektywną podstawę do decyzji o blokowaniu/dopuszczaniu zamiast zgadywania.

4. Monitoruj, co boty faktycznie konsumują

Wiedza, że bot crawluje, jest przydatna. Wiedza, co crawluje, jest bardziej przydatna. Analiza ścieżek w CASI pokazuje, które strony i sekcje każdy bot odwiedza najczęściej, więc możesz zobaczyć, czy crawlery AI konsumują Twoje treści o dużej wartości, czy marnują czas na strony o niskiej wartości. Jeśli boty zjadają Twój crawl budget na starych stronach archiwalnych, ignorując kluczowe treści, to jest informacja, na podstawie której można działać.

5. Ustaw ciągły monitoring

Ruch botów nie jest statyczny. Pojawiają się nowe crawlery, istniejące zmieniają zachowanie, a wzorce ruchu się przesuwają. Jednorazowy audyt logów jest przydatny, ale niewystarczający. CASI wysyła regularne raporty i alerty — gdy bot, który powinien być zablokowany, ignoruje Twój robots.txt, gdy wskaźnik błędów żądań botów gwałtownie rośnie lub gdy nowy crawler zaczyna agresywnie atakować Twoją stronę.

Podsumowanie

Wykrywanie ruchu botów sprowadza się do trzech warstw: identyfikacja (kto twierdzi, że odwiedza), weryfikacja (czy naprawdę są tym, za kogo się podają) i analiza (co robią i czy to wartościowe).

Logi serwera i analiza user-agent dają Ci start. Odwrotny DNS i analiza behawioralna dodają pewność. Ale aby realizować wszystkie trzy warstwy na dużą skalę — identyfikację, weryfikację i ciągłą analizę dla ponad 800 botów — potrzebujesz dedykowanej platformy monitoringu.

Strony, które najlepiej poradzą sobie w erze AI, to nie te, które blokują wszystko lub pozwalają na wszystko — lecz te, które faktycznie widzą, co się dzieje, i podejmują decyzje oparte na danych.

Can AI See It identyfikuje i weryfikuje ponad 800 botów na Twojej stronie w czasie rzeczywistym. Detekcja fałszywych botów, analityka crawlowania per bot, śledzenie odesłań AI, monitoring robots.txt i analiza ścieżek — wszystko, czego potrzebujesz, aby przejść od „chyba boty mnie odwiedzają" do „wiem dokładnie, co się dzieje i ile to warte". Zacznij monitorować ruch botów