Czym jest Arquivo Web Crawler?
Krótka odpowiedź: Arquivo Web Crawler to bot archiwizacji sieci obsługiwany przez Arquivo, przechwytujący portugalski web.
Arquivo Web Crawler to bot archiwizacji sieci zaprojektowany do przechwytywania i zachowywania portugalskiego web. Jest obsługiwany przez Arquivo i wykorzystuje Heritrix, oprogramowanie do archiwizacji web, w wersji 3.4.0-20200304. Główną funkcją bota jest systematyczne crawlowanie i archiwizowanie treści web.
Identyfikacja User-Agent
Następujące ciągi user-agent identyfikują Arquivo Web Crawler w logach Twojego serwera:
Arquivo-web-crawler (compatible; heritrix/3.4.0-20200304 +https://arquivo.pt/faq-crawling)
Reguły robots.txt dla Arquivo Web Crawler
Respektuje robots.txt: Tak
Użyj poniższych reguł robots.txt, aby kontrolować dostęp Arquivo Web Crawler:
# Block Arquivo Web Crawler
User-agent: Arquivo-web-crawler
Disallow: /
# Allow Arquivo Web Crawler
User-agent: Arquivo-web-crawler
Allow: / Robots.txt to dyrektywa, nie bariera
Arquivo deklaruje, że Arquivo Web Crawler respektuje robots.txt. Jednak błędy konfiguracji, opóźnienia cache i przypadki brzegowe oznaczają, że Twoje dyrektywy nie zawsze mogą być przestrzegane. Weryfikacja w logach serwera potwierdza, czy Arquivo Web Crawler faktycznie stosuje się do Twoich reguł.
Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.
Zachowanie crawlera
Częstotliwość:Not Documented
Wzorzec żądań:Not Documented
Cytaty z oficjalnej dokumentacji
"Arquivo-web-crawler (compatible; heritrix/3.4.0-20200304 +https://arquivo.pt/faq-crawling)"
Indeks aktywności crawlera
Względna aktywność crawlera Arquivo Web Crawler w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.
Pokaż dane aktywności (ostatnie 7 dni)
| Data | Indeks aktywności |
|---|---|
| Mar 26, 2026 | 88.0 |
| Mar 27, 2026 | 82.7 |
| Mar 28, 2026 | 83.1 |
| Mar 29, 2026 | 81.8 |
| Mar 30, 2026 | 87.3 |
| Mar 31, 2026 | 90.2 |
| Apr 1, 2026 | 88.9 |
Źródło: Cloudflare Radar
Dlaczego warto śledzić ruch Arquivo Web Crawler?
Śledź, co jest archiwizowane. Arquivo Web Crawler archiwizuje Twoje treści do długoterminowego przechowywania. Monitoring pokazuje, które strony są przechwytywane i jak często.
Kontroluj, co jest archiwizowane. Jeśli pewne strony zawierają nieaktualne ceny lub treści, których wolisz nie udostępniać na stałe, śledzenie Arquivo Web Crawler pomaga zastosować kontrole.
Weryfikacja w logach
Aby zweryfikować ruch Arquivo Web Crawler w logach serwera:
- Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
- Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez Arquivo)
- Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
- Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne
Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.
Nieudokumentowane informacje
Następujące informacje nie są oficjalnie udokumentowane dla Arquivo Web Crawler:
- crawl frequency
- request pattern
- IP verification method
- JavaScript rendering details
Oficjalna dokumentacja
Zobacz oficjalną dokumentację Arquivo Web Crawler →
Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.