Czym jest Internet Archive Bot?
Krótka odpowiedź: Crawler Internet Archive przeszukuje i zachowuje publicznie dostępne strony internetowe dla historycznego archiwum Wayback Machine Internet Archive.
Crawler Internet Archive (archive.org_bot) systematycznie przeszukuje publicznie dostępne strony internetowe, aby zachować je w Wayback Machine. Przestrzega dyrektyw robots.txt. Misją Internet Archive jest zapewnienie powszechnego dostępu do całej wiedzy poprzez zachowywanie historii sieci.
Identyfikacja User-Agent
Następujące ciągi user-agent identyfikują Internet Archive Bot w logach Twojego serwera:
Mozilla/5.0 (compatible; archive.org_bot +http://www.archive.org/details/archive.org_bot)Mozilla/5.0 (compatible; special_archiver/3.1.1 +http://www.archive.org/details/archive.org_bot)
Reguły robots.txt dla Internet Archive Bot
Respektuje robots.txt: Tak
Użyj poniższych reguł robots.txt, aby kontrolować dostęp Internet Archive Bot:
# Block Internet Archive Bot
User-agent: archive.org_bot
Disallow: /
# Allow Internet Archive Bot
User-agent: archive.org_bot
Allow: / Robots.txt to dyrektywa, nie bariera
Internet Archive deklaruje, że Internet Archive Bot respektuje robots.txt. Jednak błędy konfiguracji, opóźnienia cache i przypadki brzegowe oznaczają, że Twoje dyrektywy nie zawsze mogą być przestrzegane. Weryfikacja w logach serwera potwierdza, czy Internet Archive Bot faktycznie stosuje się do Twoich reguł.
Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.
Zachowanie crawlera
Wzorzec żądań:Brak dokumentacji
Dlaczego warto śledzić ruch Internet Archive Bot?
Śledź, co jest archiwizowane. Internet Archive Bot archiwizuje Twoje treści do długoterminowego przechowywania. Monitoring pokazuje, które strony są przechwytywane i jak często.
Kontroluj, co jest archiwizowane. Jeśli pewne strony zawierają nieaktualne ceny lub treści, których wolisz nie udostępniać na stałe, śledzenie Internet Archive Bot pomaga zastosować kontrole.
Weryfikacja w logach
Aby zweryfikować ruch Internet Archive Bot w logach serwera:
- Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
- Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez Internet Archive)
- Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
- Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne
Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.
Oficjalna dokumentacja
Zobacz oficjalną dokumentację Internet Archive Bot →
Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.