Czym jest MirrorWebCrawler?
Krótka odpowiedź: MirrorWebCrawler to bot archiwizacji web obsługiwany przez MirrorWeb Ltd, zapewniający rozwiązania archiwalne dla sektora finansowego i publicznego.
MirrorWebCrawler to komercyjny bot archiwizacji web używany do przechwytywania i zachowywania treści witryn w czasie rzeczywistym. Jest obsługiwany przez MirrorWeb Ltd, firmę oferującą rozwiązania archiwalne dla sektora finansowego i publicznego. Główną funkcją bota jest archiwizowanie witryn na potrzeby zgodności, dowodowe i dla spokoju ducha, spełniając regulacje finansowe, wymagania FOIA lub zachowując treści do celów prawnych.
Identyfikacja User-Agent
Następujące ciągi user-agent identyfikują MirrorWebCrawler w logach Twojego serwera:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36 +https://www.mirrorweb.com
Reguły robots.txt dla MirrorWebCrawler
Respektuje robots.txt: Nie
Ten bot nie zobowiązuje się do przestrzegania robots.txt
MirrorWebCrawler oficjalnie nie przestrzega dyrektyw robots.txt. Jedynym niezawodnym sposobem kontroli dostępu jest blokowanie po stronie serwera (filtrowanie IP, reguły user-agent w konfiguracji serwera) w połączeniu z monitoringiem logów.
Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.
Zachowanie crawlera
Częstotliwość:Continuous
Wzorzec żądań:Real-Time Website Capture
Indeks aktywności crawlera
Względna aktywność crawlera MirrorWebCrawler w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.
Pokaż dane aktywności (ostatnie 7 dni)
| Data | Indeks aktywności |
|---|---|
| Mar 28, 2026 | 28.0 |
| Mar 29, 2026 | 26.3 |
| Mar 30, 2026 | 20.2 |
| Mar 31, 2026 | 17.1 |
| Apr 1, 2026 | 16.4 |
| Apr 2, 2026 | 23.7 |
| Apr 3, 2026 | 23.3 |
Źródło: Cloudflare Radar
Dlaczego warto śledzić ruch MirrorWebCrawler?
Identyfikuj i klasyfikuj nieznaną aktywność crawlerów. MirrorWebCrawler może pojawiać się w logach serwera z różną częstotliwością. Śledzenie zachowania pomaga zdecydować, czy zezwolić, ograniczyć czy zablokować na podstawie danych.
Chroń budżet crawlowania. Każde żądanie bota pochłania zasoby serwera. Zrozumienie, co MirrorWebCrawler crawluje, pomaga priorytetyzować crawlery, które mają znaczenie.
Weryfikacja w logach
Aby zweryfikować ruch MirrorWebCrawler w logach serwera:
- Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
- Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez MirrorWeb Ltd)
- Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
- Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne
Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.
Nieudokumentowane informacje
Następujące informacje nie są oficjalnie udokumentowane dla MirrorWebCrawler:
- crawl frequency details
- IP verification method
- JavaScript rendering details
Oficjalna dokumentacja
Zobacz oficjalną dokumentację MirrorWebCrawler →
Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.