Was ist Internet Archive - Archive-It?
Kurzantwort: Der Archive-It-Bot von Internet Archive bewahrt Webseiten für historische Aufzeichnungen.
Der von Internet Archive betriebene Archive-It-Bot ist ein Webarchivierungsdienst, der Institutionen ermöglicht, Sammlungen digital entstandener Inhalte aufzubauen und zu bewahren. Er speichert Webseiten für zukünftige Generationen und hostet Sammlungen im Rechenzentrum von Internet Archive, wodurch sie der Öffentlichkeit mit Volltextsuche zugänglich gemacht werden.
User-Agent-Identifikation
Die folgenden User-Agent-Strings identifizieren Internet Archive - Archive-It in Ihren Live-Traffic-Daten:
Mozilla/5.0 (X11; Linux x86_64; special_archiver; Archive-It; +http://archive-it.org/files/site-owners-special.html) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36Mozilla/5.0 (X11; Linux x86_64; archive.org_bot; Archive-It; +http://archive-it.org/files/site-owners.html) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36Mozilla/5.0 (compatible; special_archiver; Archive-It; +@http://archive-it.org/files/site-owners-special.html)Mozilla/5.0 (compatible; archive.org_bot; Archive-It; +@http://archive-it.org/files/site-owners.html)
robots.txt-Regeln für Internet Archive - Archive-It
Respektiert robots.txt: Nein
Dieser Bot verpflichtet sich nicht, robots.txt zu befolgen
Internet Archive - Archive-It befolgt robots.txt-Anweisungen nicht offiziell. Die einzige zuverlässige Methode zur Zugriffskontrolle ist serverseitiges Blockieren (IP-Filterung, User-Agent-Regeln in Ihrer Webserver-Konfiguration) in Kombination mit Log-Monitoring zur Wirksamkeitsüberprüfung.
Benötigen Sie kontinuierliche Verifizierung für über 500 Bots? Can AI See It automatisiert dies.
Crawl-Verhalten
Häufigkeit:Not Documented
Anfragemuster:Not Documented
Zitate aus der offiziellen Dokumentation
"If you do not wish to have your materials archived, you can place a **robots.txt** text file on your server to exclude your materials."
Crawl-Aktivitätsindex
Relative Crawl-Aktivität von Internet Archive - Archive-It der letzten 28 Tage. Höhere Werte zeigen eine erhöhte Crawl-Intensität im Vergleich zum Basiszeitraum an.
Aktuelle Aktivitätsdaten anzeigen (letzte 7 Tage)
| Datum | Aktivitätsindex |
|---|---|
| Mar 26, 2026 | 88.0 |
| Mar 27, 2026 | 82.7 |
| Mar 28, 2026 | 83.1 |
| Mar 29, 2026 | 81.8 |
| Mar 30, 2026 | 87.3 |
| Mar 31, 2026 | 90.2 |
| Apr 1, 2026 | 88.8 |
Quelle: Cloudflare Radar
Warum Internet Archive - Archive-It-Traffic überwachen?
Verfolgen Sie, was archiviert wird. Internet Archive - Archive-It archiviert Ihre Inhalte für die langfristige Aufbewahrung. Die Überwachung zeigt, welche Seiten erfasst werden und wie häufig.
Kontrollieren Sie, was archiviert wird. Wenn bestimmte Seiten veraltete Preise oder Inhalte enthalten, die Sie nicht dauerhaft zugänglich machen möchten, hilft die Überwachung von Internet Archive - Archive-It bei der Anwendung von Kontrollen.
Log-Verifizierung
So verifizieren Sie Internet Archive - Archive-It-Traffic in Ihren Live-Traffic-Daten:
- Durchsuchen Sie Zugriffsprotokolle nach den oben aufgeführten User-Agent-Strings
- Prüfen Sie, ob die IP-Adressen mit dokumentierten Bereichen übereinstimmen (falls von Archive-It bereitgestellt)
- Verifizieren Sie, ob das Crawl-Muster dem dokumentierten Verhalten entspricht
- Verwenden Sie Reverse-DNS-Lookup zur zusätzlichen Verifizierung, falls verfügbar
Note: Das beobachtete Verhalten in Produktionsumgebungen kann von der offiziellen Dokumentation abweichen. Live-Traffic-Monitoring bietet die einzige zuverlässige Verifizierung des tatsächlichen Bot-Verhaltens.
Undokumentierte Informationen
Die folgenden Informationen sind für Internet Archive - Archive-It nicht offiziell dokumentiert:
- crawl frequency
- request pattern
- IP verification
- JavaScript rendering
Offizielle Dokumentation
Offizielle Internet Archive - Archive-It-Dokumentation anzeigen →
Informationen stammen aus der offiziellen Dokumentation. Inhalt mit KI-Unterstützung erstellt.