Czym jest Library Of Congress Web Archiving?
Krótka odpowiedź: Library of Congress Web Archive to bot obsługiwany przez United States Library of Congress, który zarządza, zachowuje i zapewnia dostęp do zarchiwizowanych treści sieciowych.
Library of Congress Web Archive używa open-source'owego archiwalnego crawlera Heritrix do zbierania treści z witryn w regularnych odstępach czasu. Bot ma polecenie omijania robots.txt, aby uzyskać pełną reprezentację witryn. Zaczyna od 'seed URL' i podąża za linkami, pobierając kopie treści w celu ich zachowania.
Identyfikacja User-Agent
Następujące ciągi user-agent identyfikują Library Of Congress Web Archiving w logach Twojego serwera:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36 (+https://www.loc.gov/programs/web-archiving/for-site-owners/)
Reguły robots.txt dla Library Of Congress Web Archiving
Respektuje robots.txt: Nie
Ten bot nie zobowiązuje się do przestrzegania robots.txt
Library Of Congress Web Archiving oficjalnie nie przestrzega dyrektyw robots.txt. Jedynym niezawodnym sposobem kontroli dostępu jest blokowanie po stronie serwera (filtrowanie IP, reguły user-agent w konfiguracji serwera) w połączeniu z monitoringiem logów.
Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.
Zachowanie crawlera
Częstotliwość:Regular Intervals
Wzorzec żądań:Starts With A 'Seed URL' And Follows Links
Cytaty z oficjalnej dokumentacji
"The Library of Congress (or its agents) collects content from websites at regular intervals, primarily using the Heritrix crawler, which is an open-source archival web crawler."
"Our crawler is instructed to bypass robots.txt in order to obtain the most complete and accurate representation of websites."
Indeks aktywności crawlera
Względna aktywność crawlera Library Of Congress Web Archiving w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.
Pokaż dane aktywności (ostatnie 7 dni)
| Data | Indeks aktywności |
|---|---|
| Mar 26, 2026 | 88.0 |
| Mar 27, 2026 | 82.7 |
| Mar 28, 2026 | 83.1 |
| Mar 29, 2026 | 81.8 |
| Mar 30, 2026 | 87.3 |
| Mar 31, 2026 | 90.2 |
| Apr 1, 2026 | 88.9 |
Źródło: Cloudflare Radar
Dlaczego warto śledzić ruch Library Of Congress Web Archiving?
Identyfikuj i klasyfikuj nieznaną aktywność crawlerów. Library Of Congress Web Archiving może pojawiać się w logach serwera z różną częstotliwością. Śledzenie zachowania pomaga zdecydować, czy zezwolić, ograniczyć czy zablokować na podstawie danych.
Chroń budżet crawlowania. Każde żądanie bota pochłania zasoby serwera. Zrozumienie, co Library Of Congress Web Archiving crawluje, pomaga priorytetyzować crawlery, które mają znaczenie.
Weryfikacja w logach
Aby zweryfikować ruch Library Of Congress Web Archiving w logach serwera:
- Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
- Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez United States Library of Congress)
- Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
- Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne
Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.
Nieudokumentowane informacje
Następujące informacje nie są oficjalnie udokumentowane dla Library Of Congress Web Archiving:
- crawl frequency specifics
- IP verification method
Oficjalna dokumentacja
Zobacz oficjalną dokumentację Library Of Congress Web Archiving →
Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.