Zum Hauptinhalt springen
Can AI see it

Erfahre, was KI sieht. Miss, was es wert ist.

Was ist Internet Archive Bot?

Kurzantwort: Der Internet Archive-Bot crawlt und bewahrt öffentlich zugängliche Webseiten für den historischen Bestand der Wayback Machine von Internet Archive.

Betreiber: Internet Archive Typ: Web-Archivierer Zweck: Webarchivierung

Der Crawler von Internet Archive (archive.org_bot) crawlt systematisch öffentlich zugängliche Webseiten, um sie in der Wayback Machine zu bewahren. Er beachtet robots.txt-Anweisungen. Die Mission von Internet Archive besteht darin, universellen Zugang zu allem Wissen zu ermöglichen, indem die Webgeschichte bewahrt wird.

User-Agent-Identifikation

Die folgenden User-Agent-Strings identifizieren Internet Archive Bot in Ihren Live-Traffic-Daten:

  • Mozilla/5.0 (compatible; archive.org_bot +http://www.archive.org/details/archive.org_bot)
  • Mozilla/5.0 (compatible; special_archiver/3.1.1 +http://www.archive.org/details/archive.org_bot)

robots.txt-Regeln für Internet Archive Bot

Respektiert robots.txt: Ja

Verwenden Sie die folgenden robots.txt-Regeln, um den Zugriff von Internet Archive Bot zu steuern:

# Block Internet Archive Bot
User-agent: archive.org_bot
Disallow: /

# Allow Internet Archive Bot
User-agent: archive.org_bot
Allow: /

robots.txt ist eine Anweisung, keine Barriere

Internet Archive gibt an, dass Internet Archive Bot robots.txt respektiert. Allerdings können Konfigurationsfehler, Caching-Verzögerungen und Sonderfälle dazu führen, dass Ihre Anweisungen nicht immer wie erwartet befolgt werden. Live-Traffic-Verifizierung bestätigt, ob Internet Archive Bot Ihre Regeln in der Praxis tatsächlich einhält.

Benötigen Sie kontinuierliche Verifizierung für über 500 Bots? Can AI See It automatisiert dies.

Crawl-Verhalten

Anfragemuster:Nicht dokumentiert

Warum Internet Archive Bot-Traffic überwachen?

Verfolgen Sie, was archiviert wird. Internet Archive Bot archiviert Ihre Inhalte für die langfristige Aufbewahrung. Die Überwachung zeigt, welche Seiten erfasst werden und wie häufig.

Kontrollieren Sie, was archiviert wird. Wenn bestimmte Seiten veraltete Preise oder Inhalte enthalten, die Sie nicht dauerhaft zugänglich machen möchten, hilft die Überwachung von Internet Archive Bot bei der Anwendung von Kontrollen.

Log-Verifizierung

So verifizieren Sie Internet Archive Bot-Traffic in Ihren Live-Traffic-Daten:

  1. Durchsuchen Sie Zugriffsprotokolle nach den oben aufgeführten User-Agent-Strings
  2. Prüfen Sie, ob die IP-Adressen mit dokumentierten Bereichen übereinstimmen (falls von Internet Archive bereitgestellt)
  3. Verifizieren Sie, ob das Crawl-Muster dem dokumentierten Verhalten entspricht
  4. Verwenden Sie Reverse-DNS-Lookup zur zusätzlichen Verifizierung, falls verfügbar

Note: Das beobachtete Verhalten in Produktionsumgebungen kann von der offiziellen Dokumentation abweichen. Live-Traffic-Monitoring bietet die einzige zuverlässige Verifizierung des tatsächlichen Bot-Verhaltens.

Offizielle Dokumentation

Offizielle Internet Archive Bot-Dokumentation anzeigen →

Informationen stammen aus der offiziellen Dokumentation. Inhalt mit KI-Unterstützung erstellt.