Czym jest Internet Archive - Archive-It?
Krótka odpowiedź: Bot Archive-It Internet Archive zachowuje strony internetowe do celów historycznych.
Bot Archive-It, obsługiwany przez Internet Archive, to usługa archiwizacji sieci, która pozwala instytucjom tworzyć i zachowywać kolekcje treści cyfrowych tworzonych od podstaw. Zapisuje strony internetowe dla przyszłych pokoleń i hostuje kolekcje w centrum danych Internet Archive, udostępniając je publicznie z pełnotekstowym wyszukiwaniem.
Identyfikacja User-Agent
Następujące ciągi user-agent identyfikują Internet Archive - Archive-It w logach Twojego serwera:
Mozilla/5.0 (X11; Linux x86_64; special_archiver; Archive-It; +http://archive-it.org/files/site-owners-special.html) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36Mozilla/5.0 (X11; Linux x86_64; archive.org_bot; Archive-It; +http://archive-it.org/files/site-owners.html) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36Mozilla/5.0 (compatible; special_archiver; Archive-It; +@http://archive-it.org/files/site-owners-special.html)Mozilla/5.0 (compatible; archive.org_bot; Archive-It; +@http://archive-it.org/files/site-owners.html)
Reguły robots.txt dla Internet Archive - Archive-It
Respektuje robots.txt: Nie
Ten bot nie zobowiązuje się do przestrzegania robots.txt
Internet Archive - Archive-It oficjalnie nie przestrzega dyrektyw robots.txt. Jedynym niezawodnym sposobem kontroli dostępu jest blokowanie po stronie serwera (filtrowanie IP, reguły user-agent w konfiguracji serwera) w połączeniu z monitoringiem logów.
Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.
Zachowanie crawlera
Częstotliwość:Not Documented
Wzorzec żądań:Not Documented
Cytaty z oficjalnej dokumentacji
"If you do not wish to have your materials archived, you can place a **robots.txt** text file on your server to exclude your materials."
Indeks aktywności crawlera
Względna aktywność crawlera Internet Archive - Archive-It w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.
Pokaż dane aktywności (ostatnie 7 dni)
| Data | Indeks aktywności |
|---|---|
| Mar 26, 2026 | 88.0 |
| Mar 27, 2026 | 82.7 |
| Mar 28, 2026 | 83.1 |
| Mar 29, 2026 | 81.8 |
| Mar 30, 2026 | 87.3 |
| Mar 31, 2026 | 90.2 |
| Apr 1, 2026 | 88.8 |
Źródło: Cloudflare Radar
Dlaczego warto śledzić ruch Internet Archive - Archive-It?
Śledź, co jest archiwizowane. Internet Archive - Archive-It archiwizuje Twoje treści do długoterminowego przechowywania. Monitoring pokazuje, które strony są przechwytywane i jak często.
Kontroluj, co jest archiwizowane. Jeśli pewne strony zawierają nieaktualne ceny lub treści, których wolisz nie udostępniać na stałe, śledzenie Internet Archive - Archive-It pomaga zastosować kontrole.
Weryfikacja w logach
Aby zweryfikować ruch Internet Archive - Archive-It w logach serwera:
- Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
- Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez Archive-It)
- Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
- Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne
Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.
Nieudokumentowane informacje
Następujące informacje nie są oficjalnie udokumentowane dla Internet Archive - Archive-It:
- crawl frequency
- request pattern
- IP verification
- JavaScript rendering
Oficjalna dokumentacja
Zobacz oficjalną dokumentację Internet Archive - Archive-It →
Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.