Jakie ciągi user-agent identyfikują MirrorWebCrawler?

Następujące ciągi user-agent identyfikują MirrorWebCrawler: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36 +https://www.mirrorweb.com.

Czy MirrorWebCrawler respektuje reguły robots.txt?

Zgodnie z oficjalną dokumentacją MirrorWebCrawler nie respektuje reguł robots.txt.

Czym jest MirrorWebCrawler?

Q: Jak zweryfikować ruch MirrorWebCrawler w logach serwera?

Możesz zweryfikować żądania MirrorWebCrawler sprawdzając logi dostępu serwera pod kątem udokumentowanych ciągów user-agent. Dla dokładnej weryfikacji koreluj wzorce user-agent z zakresami IP lub metodami weryfikacji podanymi przez MirrorWeb Ltd.

Krótka odpowiedź: MirrorWebCrawler to bot archiwizacji web obsługiwany przez MirrorWeb Ltd, zapewniający rozwiązania archiwalne dla sektora finansowego i publicznego.

Operator: MirrorWeb Ltd Typ: Inny bot Cel: Archiwizacja web na potrzeby zgodności i regulacji

MirrorWebCrawler to komercyjny bot archiwizacji web używany do przechwytywania i zachowywania treści witryn w czasie rzeczywistym. Jest obsługiwany przez MirrorWeb Ltd, firmę oferującą rozwiązania archiwalne dla sektora finansowego i publicznego. Główną funkcją bota jest archiwizowanie witryn na potrzeby zgodności, dowodowe i dla spokoju ducha, spełniając regulacje finansowe, wymagania FOIA lub zachowując treści do celów prawnych.

Identyfikacja User-Agent

Następujące ciągi user-agent identyfikują MirrorWebCrawler w logach Twojego serwera:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36 +https://www.mirrorweb.com

Reguły robots.txt dla MirrorWebCrawler

Respektuje robots.txt: Nie

Ten bot nie zobowiązuje się do przestrzegania robots.txt

MirrorWebCrawler oficjalnie nie przestrzega dyrektyw robots.txt. Jedynym niezawodnym sposobem kontroli dostępu jest blokowanie po stronie serwera (filtrowanie IP, reguły user-agent w konfiguracji serwera) w połączeniu z monitoringiem logów.

Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.

Zachowanie crawlera

Częstotliwość:Continuous

Wzorzec żądań:Real-Time Website Capture

Indeks aktywności crawlera

Względna aktywność crawlera MirrorWebCrawler w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.

Pokaż dane aktywności (ostatnie 7 dni)

Data	Indeks aktywności
Mar 28, 2026	28.0
Mar 29, 2026	26.3
Mar 30, 2026	20.2
Mar 31, 2026	17.1
Apr 1, 2026	16.4
Apr 2, 2026	23.7
Apr 3, 2026	23.3

Źródło: Cloudflare Radar

Dlaczego warto śledzić ruch MirrorWebCrawler?

Identyfikuj i klasyfikuj nieznaną aktywność crawlerów. MirrorWebCrawler może pojawiać się w logach serwera z różną częstotliwością. Śledzenie zachowania pomaga zdecydować, czy zezwolić, ograniczyć czy zablokować na podstawie danych.

Chroń budżet crawlowania. Każde żądanie bota pochłania zasoby serwera. Zrozumienie, co MirrorWebCrawler crawluje, pomaga priorytetyzować crawlery, które mają znaczenie.

Weryfikacja w logach

Aby zweryfikować ruch MirrorWebCrawler w logach serwera:

Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez MirrorWeb Ltd)
Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne

Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.

Nieudokumentowane informacje

Następujące informacje nie są oficjalnie udokumentowane dla MirrorWebCrawler:

crawl frequency details
IP verification method
JavaScript rendering details

Oficjalna dokumentacja

Zobacz oficjalną dokumentację MirrorWebCrawler →

Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.