Przejdź do treści
Can AI see it

Sprawdź, co widzi AI. Zmierz, ile to warte.

Czym jest Internet Archive - Archive-It?

Krótka odpowiedź: Bot Archive-It Internet Archive zachowuje strony internetowe do celów historycznych.

Operator: Archive-It Typ: Archiwizator stron Cel: Archiwizacja stron internetowych do celów historycznych

Bot Archive-It, obsługiwany przez Internet Archive, to usługa archiwizacji sieci, która pozwala instytucjom tworzyć i zachowywać kolekcje treści cyfrowych tworzonych od podstaw. Zapisuje strony internetowe dla przyszłych pokoleń i hostuje kolekcje w centrum danych Internet Archive, udostępniając je publicznie z pełnotekstowym wyszukiwaniem.

Identyfikacja User-Agent

Następujące ciągi user-agent identyfikują Internet Archive - Archive-It w logach Twojego serwera:

  • Mozilla/5.0 (X11; Linux x86_64; special_archiver; Archive-It; +http://archive-it.org/files/site-owners-special.html) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36
  • Mozilla/5.0 (X11; Linux x86_64; archive.org_bot; Archive-It; +http://archive-it.org/files/site-owners.html) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36
  • Mozilla/5.0 (compatible; special_archiver; Archive-It; +@http://archive-it.org/files/site-owners-special.html)
  • Mozilla/5.0 (compatible; archive.org_bot; Archive-It; +@http://archive-it.org/files/site-owners.html)

Reguły robots.txt dla Internet Archive - Archive-It

Respektuje robots.txt: Nie

Ten bot nie zobowiązuje się do przestrzegania robots.txt

Internet Archive - Archive-It oficjalnie nie przestrzega dyrektyw robots.txt. Jedynym niezawodnym sposobem kontroli dostępu jest blokowanie po stronie serwera (filtrowanie IP, reguły user-agent w konfiguracji serwera) w połączeniu z monitoringiem logów.

Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.

Zachowanie crawlera

Częstotliwość:Not Documented

Wzorzec żądań:Not Documented

Cytaty z oficjalnej dokumentacji

"If you do not wish to have your materials archived, you can place a **robots.txt** text file on your server to exclude your materials."

Indeks aktywności crawlera

Względna aktywność crawlera Internet Archive - Archive-It w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.

Pokaż dane aktywności (ostatnie 7 dni)
Data Indeks aktywności
Mar 26, 2026 88.0
Mar 27, 2026 82.7
Mar 28, 2026 83.1
Mar 29, 2026 81.8
Mar 30, 2026 87.3
Mar 31, 2026 90.2
Apr 1, 2026 88.8

Źródło: Cloudflare Radar

Dlaczego warto śledzić ruch Internet Archive - Archive-It?

Śledź, co jest archiwizowane. Internet Archive - Archive-It archiwizuje Twoje treści do długoterminowego przechowywania. Monitoring pokazuje, które strony są przechwytywane i jak często.

Kontroluj, co jest archiwizowane. Jeśli pewne strony zawierają nieaktualne ceny lub treści, których wolisz nie udostępniać na stałe, śledzenie Internet Archive - Archive-It pomaga zastosować kontrole.

Weryfikacja w logach

Aby zweryfikować ruch Internet Archive - Archive-It w logach serwera:

  1. Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
  2. Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez Archive-It)
  3. Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
  4. Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne

Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.

Nieudokumentowane informacje

Następujące informacje nie są oficjalnie udokumentowane dla Internet Archive - Archive-It:

  • crawl frequency
  • request pattern
  • IP verification
  • JavaScript rendering

Oficjalna dokumentacja

Zobacz oficjalną dokumentację Internet Archive - Archive-It →

Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.