Przejdź do treści
Can AI see it

Sprawdź, co widzi AI. Zmierz, ile to warte.

Czym jest Arquivo Web Crawler?

Krótka odpowiedź: Arquivo Web Crawler to bot archiwizacji sieci obsługiwany przez Arquivo, przechwytujący portugalski web.

Operator: Arquivo Typ: Archiwizator stron Cel: Archiwizacja i zachowanie zasobów webowych

Arquivo Web Crawler to bot archiwizacji sieci zaprojektowany do przechwytywania i zachowywania portugalskiego web. Jest obsługiwany przez Arquivo i wykorzystuje Heritrix, oprogramowanie do archiwizacji web, w wersji 3.4.0-20200304. Główną funkcją bota jest systematyczne crawlowanie i archiwizowanie treści web.

Identyfikacja User-Agent

Następujące ciągi user-agent identyfikują Arquivo Web Crawler w logach Twojego serwera:

  • Arquivo-web-crawler (compatible; heritrix/3.4.0-20200304 +https://arquivo.pt/faq-crawling)

Reguły robots.txt dla Arquivo Web Crawler

Respektuje robots.txt: Tak

Użyj poniższych reguł robots.txt, aby kontrolować dostęp Arquivo Web Crawler:

# Block Arquivo Web Crawler
User-agent: Arquivo-web-crawler
Disallow: /

# Allow Arquivo Web Crawler
User-agent: Arquivo-web-crawler
Allow: /

Robots.txt to dyrektywa, nie bariera

Arquivo deklaruje, że Arquivo Web Crawler respektuje robots.txt. Jednak błędy konfiguracji, opóźnienia cache i przypadki brzegowe oznaczają, że Twoje dyrektywy nie zawsze mogą być przestrzegane. Weryfikacja w logach serwera potwierdza, czy Arquivo Web Crawler faktycznie stosuje się do Twoich reguł.

Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.

Zachowanie crawlera

Częstotliwość:Not Documented

Wzorzec żądań:Not Documented

Cytaty z oficjalnej dokumentacji

"Arquivo-web-crawler (compatible; heritrix/3.4.0-20200304 +https://arquivo.pt/faq-crawling)"

Indeks aktywności crawlera

Względna aktywność crawlera Arquivo Web Crawler w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.

Pokaż dane aktywności (ostatnie 7 dni)
Data Indeks aktywności
Mar 26, 2026 88.0
Mar 27, 2026 82.7
Mar 28, 2026 83.1
Mar 29, 2026 81.8
Mar 30, 2026 87.3
Mar 31, 2026 90.2
Apr 1, 2026 88.9

Źródło: Cloudflare Radar

Dlaczego warto śledzić ruch Arquivo Web Crawler?

Śledź, co jest archiwizowane. Arquivo Web Crawler archiwizuje Twoje treści do długoterminowego przechowywania. Monitoring pokazuje, które strony są przechwytywane i jak często.

Kontroluj, co jest archiwizowane. Jeśli pewne strony zawierają nieaktualne ceny lub treści, których wolisz nie udostępniać na stałe, śledzenie Arquivo Web Crawler pomaga zastosować kontrole.

Weryfikacja w logach

Aby zweryfikować ruch Arquivo Web Crawler w logach serwera:

  1. Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
  2. Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez Arquivo)
  3. Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
  4. Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne

Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.

Nieudokumentowane informacje

Następujące informacje nie są oficjalnie udokumentowane dla Arquivo Web Crawler:

  • crawl frequency
  • request pattern
  • IP verification method
  • JavaScript rendering details

Oficjalna dokumentacja

Zobacz oficjalną dokumentację Arquivo Web Crawler →

Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.