Czy Internet Archive - Archive-It respektuje reguły robots.txt?

Zgodnie z oficjalną dokumentacją Internet Archive - Archive-It nie respektuje reguł robots.txt.

Czym jest Internet Archive - Archive-It?

Q: Jak zweryfikować ruch Internet Archive - Archive-It w logach serwera?

Możesz zweryfikować żądania Internet Archive - Archive-It sprawdzając logi dostępu serwera pod kątem udokumentowanych ciągów user-agent. Dla dokładnej weryfikacji koreluj wzorce user-agent z zakresami IP lub metodami weryfikacji podanymi przez Archive-It.

Krótka odpowiedź: Bot Archive-It Internet Archive zachowuje strony internetowe do celów historycznych.

Operator: Archive-It Typ: Archiwizator stron Cel: Archiwizacja stron internetowych do celów historycznych

Bot Archive-It, obsługiwany przez Internet Archive, to usługa archiwizacji sieci, która pozwala instytucjom tworzyć i zachowywać kolekcje treści cyfrowych tworzonych od podstaw. Zapisuje strony internetowe dla przyszłych pokoleń i hostuje kolekcje w centrum danych Internet Archive, udostępniając je publicznie z pełnotekstowym wyszukiwaniem.

Identyfikacja User-Agent

Następujące ciągi user-agent identyfikują Internet Archive - Archive-It w logach Twojego serwera:

Mozilla/5.0 (X11; Linux x86_64; special_archiver; Archive-It; +http://archive-it.org/files/site-owners-special.html) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36
Mozilla/5.0 (X11; Linux x86_64; archive.org_bot; Archive-It; +http://archive-it.org/files/site-owners.html) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36
Mozilla/5.0 (compatible; special_archiver; Archive-It; +@http://archive-it.org/files/site-owners-special.html)
Mozilla/5.0 (compatible; archive.org_bot; Archive-It; +@http://archive-it.org/files/site-owners.html)

Reguły robots.txt dla Internet Archive - Archive-It

Respektuje robots.txt: Nie

Ten bot nie zobowiązuje się do przestrzegania robots.txt

Internet Archive - Archive-It oficjalnie nie przestrzega dyrektyw robots.txt. Jedynym niezawodnym sposobem kontroli dostępu jest blokowanie po stronie serwera (filtrowanie IP, reguły user-agent w konfiguracji serwera) w połączeniu z monitoringiem logów.

Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.

Zachowanie crawlera

Częstotliwość:Not Documented

Wzorzec żądań:Not Documented

Cytaty z oficjalnej dokumentacji

"If you do not wish to have your materials archived, you can place a **robots.txt** text file on your server to exclude your materials."
Źródło:Oficjalna dokumentacja

Indeks aktywności crawlera

Względna aktywność crawlera Internet Archive - Archive-It w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.

Pokaż dane aktywności (ostatnie 7 dni)

Data	Indeks aktywności
Mar 26, 2026	88.0
Mar 27, 2026	82.7
Mar 28, 2026	83.1
Mar 29, 2026	81.8
Mar 30, 2026	87.3
Mar 31, 2026	90.2
Apr 1, 2026	88.8

Źródło: Cloudflare Radar

Dlaczego warto śledzić ruch Internet Archive - Archive-It?

Śledź, co jest archiwizowane. Internet Archive - Archive-It archiwizuje Twoje treści do długoterminowego przechowywania. Monitoring pokazuje, które strony są przechwytywane i jak często.

Kontroluj, co jest archiwizowane. Jeśli pewne strony zawierają nieaktualne ceny lub treści, których wolisz nie udostępniać na stałe, śledzenie Internet Archive - Archive-It pomaga zastosować kontrole.

Weryfikacja w logach

Aby zweryfikować ruch Internet Archive - Archive-It w logach serwera:

Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez Archive-It)
Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne

Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.

Nieudokumentowane informacje

Następujące informacje nie są oficjalnie udokumentowane dla Internet Archive - Archive-It:

crawl frequency
request pattern
IP verification
JavaScript rendering

Oficjalna dokumentacja

Zobacz oficjalną dokumentację Internet Archive - Archive-It →

Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.