Was ist Arquivo Web Crawler?
Kurzantwort: Arquivo Web Crawler ist ein Webarchivierungs-Bot, betrieben von Arquivo, der das portugiesische Web erfasst.
Der Arquivo Web Crawler ist ein Webarchivierungs-Bot, der entwickelt wurde, um das portugiesische Web zu erfassen und zu bewahren. Er wird von Arquivo betrieben und nutzt Heritrix, eine Webarchivierungssoftware, Version 3.4.0-20200304. Die Hauptfunktion des Bots besteht darin, Webinhalte systematisch zu crawlen und zu archivieren.
User-Agent-Identifikation
Die folgenden User-Agent-Strings identifizieren Arquivo Web Crawler in Ihren Live-Traffic-Daten:
Arquivo-web-crawler (compatible; heritrix/3.4.0-20200304 +https://arquivo.pt/faq-crawling)
robots.txt-Regeln für Arquivo Web Crawler
Respektiert robots.txt: Ja
Verwenden Sie die folgenden robots.txt-Regeln, um den Zugriff von Arquivo Web Crawler zu steuern:
# Block Arquivo Web Crawler
User-agent: Arquivo-web-crawler
Disallow: /
# Allow Arquivo Web Crawler
User-agent: Arquivo-web-crawler
Allow: / robots.txt ist eine Anweisung, keine Barriere
Arquivo gibt an, dass Arquivo Web Crawler robots.txt respektiert. Allerdings können Konfigurationsfehler, Caching-Verzögerungen und Sonderfälle dazu führen, dass Ihre Anweisungen nicht immer wie erwartet befolgt werden. Live-Traffic-Verifizierung bestätigt, ob Arquivo Web Crawler Ihre Regeln in der Praxis tatsächlich einhält.
Benötigen Sie kontinuierliche Verifizierung für über 500 Bots? Can AI See It automatisiert dies.
Crawl-Verhalten
Häufigkeit:Not Documented
Anfragemuster:Not Documented
Zitate aus der offiziellen Dokumentation
"Arquivo-web-crawler (compatible; heritrix/3.4.0-20200304 +https://arquivo.pt/faq-crawling)"
Crawl-Aktivitätsindex
Relative Crawl-Aktivität von Arquivo Web Crawler der letzten 28 Tage. Höhere Werte zeigen eine erhöhte Crawl-Intensität im Vergleich zum Basiszeitraum an.
Aktuelle Aktivitätsdaten anzeigen (letzte 7 Tage)
| Datum | Aktivitätsindex |
|---|---|
| Mar 26, 2026 | 88.0 |
| Mar 27, 2026 | 82.7 |
| Mar 28, 2026 | 83.1 |
| Mar 29, 2026 | 81.8 |
| Mar 30, 2026 | 87.3 |
| Mar 31, 2026 | 90.2 |
| Apr 1, 2026 | 88.9 |
Quelle: Cloudflare Radar
Warum Arquivo Web Crawler-Traffic überwachen?
Verfolgen Sie, was archiviert wird. Arquivo Web Crawler archiviert Ihre Inhalte für die langfristige Aufbewahrung. Die Überwachung zeigt, welche Seiten erfasst werden und wie häufig.
Kontrollieren Sie, was archiviert wird. Wenn bestimmte Seiten veraltete Preise oder Inhalte enthalten, die Sie nicht dauerhaft zugänglich machen möchten, hilft die Überwachung von Arquivo Web Crawler bei der Anwendung von Kontrollen.
Log-Verifizierung
So verifizieren Sie Arquivo Web Crawler-Traffic in Ihren Live-Traffic-Daten:
- Durchsuchen Sie Zugriffsprotokolle nach den oben aufgeführten User-Agent-Strings
- Prüfen Sie, ob die IP-Adressen mit dokumentierten Bereichen übereinstimmen (falls von Arquivo bereitgestellt)
- Verifizieren Sie, ob das Crawl-Muster dem dokumentierten Verhalten entspricht
- Verwenden Sie Reverse-DNS-Lookup zur zusätzlichen Verifizierung, falls verfügbar
Note: Das beobachtete Verhalten in Produktionsumgebungen kann von der offiziellen Dokumentation abweichen. Live-Traffic-Monitoring bietet die einzige zuverlässige Verifizierung des tatsächlichen Bot-Verhaltens.
Undokumentierte Informationen
Die folgenden Informationen sind für Arquivo Web Crawler nicht offiziell dokumentiert:
- crawl frequency
- request pattern
- IP verification method
- JavaScript rendering details
Offizielle Dokumentation
Offizielle Arquivo Web Crawler-Dokumentation anzeigen →
Informationen stammen aus der offiziellen Dokumentation. Inhalt mit KI-Unterstützung erstellt.