Czym jest New York Times Newsgathering?
Krótka odpowiedź: Bot New York Times Newsgathering zbiera publiczne dane nieobjęte prawami autorskimi do użytku redakcyjnego.
Bot New York Times Newsgathering jest używany przez programistów w newsroomie NYT do zbierania publicznych danych nieobjętych prawami autorskimi z rządowych i komercyjnych stron internetowych. Jest wykorzystywany do zadań takich jak projekty archiwalne i zbieranie danych do celów publicznych, w tym stron wyborów w USA i trackerów Covid-19. Bot stosuje najlepsze praktyki branżowe, w tym kontrolowanie wolumenu żądań, ograniczanie tempa oraz identyfikowanie się za pomocą niestandardowych UserAgents i nagłówków X.
Identyfikacja User-Agent
Następujące ciągi user-agent identyfikują New York Times Newsgathering w logach Twojego serwera:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 nyt_scraping/scraping@nytimes.com
Reguły robots.txt dla New York Times Newsgathering
Respektuje robots.txt: Nie
Robots.txt ma ograniczony wpływ na boty inicjowane przez użytkowników
New York Times Newsgathering jest uruchamiany przez działania użytkowników w produktach The New York Times. Mimo że The New York Times deklaruje respektowanie robots.txt, bot działa inaczej niż autonomiczne crawlery — pobiera konkretne URL-e na żądanie zamiast systematycznie crawlować stronę. Monitoring logów serwera to jedyny niezawodny sposób weryfikacji.
Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.
Zachowanie crawlera
Częstotliwość:Not Documented
Wzorzec żądań:Not Documented
Cytaty z oficjalnej dokumentacji
"Coders within The New York Times newsroom write scripts and scrapers that collect public, non-copyright data from government and commercial websites, ranging from archival tasks to public-service data like our U.S. Elections pages and Covid-19 trackers."
"We bake-in industry best practices like controlling the volume of requests, throttling/concurrency and identifying our work with custom UserAgents and X-headers."
Indeks aktywności crawlera
Względna aktywność crawlera New York Times Newsgathering w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.
Pokaż dane aktywności (ostatnie 7 dni)
| Data | Indeks aktywności |
|---|---|
| Mar 26, 2026 | 88.0 |
| Mar 27, 2026 | 82.7 |
| Mar 28, 2026 | 83.1 |
| Mar 29, 2026 | 81.8 |
| Mar 30, 2026 | 87.3 |
| Mar 31, 2026 | 90.2 |
| Apr 1, 2026 | 88.9 |
Źródło: Cloudflare Radar
Dlaczego warto śledzić ruch New York Times Newsgathering?
Identyfikuj i klasyfikuj nieznaną aktywność crawlerów. New York Times Newsgathering może pojawiać się w logach serwera z różną częstotliwością. Śledzenie zachowania pomaga zdecydować, czy zezwolić, ograniczyć czy zablokować na podstawie danych.
Chroń budżet crawlowania. Każde żądanie bota pochłania zasoby serwera. Zrozumienie, co New York Times Newsgathering crawluje, pomaga priorytetyzować crawlery, które mają znaczenie.
Weryfikacja w logach
Aby zweryfikować ruch New York Times Newsgathering w logach serwera:
- Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
- Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez The New York Times)
- Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
- Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne
Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.
Nieudokumentowane informacje
Następujące informacje nie są oficjalnie udokumentowane dla New York Times Newsgathering:
- crawl frequency
- request pattern
- JavaScript rendering details
Oficjalna dokumentacja
Zobacz oficjalną dokumentację New York Times Newsgathering →
Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.