Czy New York Times Newsgathering respektuje reguły robots.txt?

Zgodnie z oficjalną dokumentacją New York Times Newsgathering nie respektuje reguł robots.txt.

Czym jest New York Times Newsgathering?

Q: Jak zweryfikować ruch New York Times Newsgathering w logach serwera?

Możesz zweryfikować żądania New York Times Newsgathering sprawdzając logi dostępu serwera pod kątem udokumentowanych ciągów user-agent. Dla dokładnej weryfikacji koreluj wzorce user-agent z zakresami IP lub metodami weryfikacji podanymi przez The New York Times.

Krótka odpowiedź: Bot New York Times Newsgathering zbiera publiczne dane nieobjęte prawami autorskimi do użytku redakcyjnego.

Operator: The New York Times Typ: Inny bot Cel: Zbieranie publicznych danych nieobjętych prawami autorskimi do użytku redakcyjnego

Bot New York Times Newsgathering jest używany przez programistów w newsroomie NYT do zbierania publicznych danych nieobjętych prawami autorskimi z rządowych i komercyjnych stron internetowych. Jest wykorzystywany do zadań takich jak projekty archiwalne i zbieranie danych do celów publicznych, w tym stron wyborów w USA i trackerów Covid-19. Bot stosuje najlepsze praktyki branżowe, w tym kontrolowanie wolumenu żądań, ograniczanie tempa oraz identyfikowanie się za pomocą niestandardowych UserAgents i nagłówków X.

Identyfikacja User-Agent

Następujące ciągi user-agent identyfikują New York Times Newsgathering w logach Twojego serwera:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 nyt_scraping/scraping@nytimes.com

Reguły robots.txt dla New York Times Newsgathering

Respektuje robots.txt: Nie

Robots.txt ma ograniczony wpływ na boty inicjowane przez użytkowników

New York Times Newsgathering jest uruchamiany przez działania użytkowników w produktach The New York Times. Mimo że The New York Times deklaruje respektowanie robots.txt, bot działa inaczej niż autonomiczne crawlery — pobiera konkretne URL-e na żądanie zamiast systematycznie crawlować stronę. Monitoring logów serwera to jedyny niezawodny sposób weryfikacji.

Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.

Zachowanie crawlera

Częstotliwość:Not Documented

Wzorzec żądań:Not Documented

Cytaty z oficjalnej dokumentacji

"Coders within The New York Times newsroom write scripts and scrapers that collect public, non-copyright data from government and commercial websites, ranging from archival tasks to public-service data like our U.S. Elections pages and Covid-19 trackers."
Źródło:Oficjalna dokumentacja

"We bake-in industry best practices like controlling the volume of requests, throttling/concurrency and identifying our work with custom UserAgents and X-headers."
Źródło:Oficjalna dokumentacja

Indeks aktywności crawlera

Względna aktywność crawlera New York Times Newsgathering w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.

Pokaż dane aktywności (ostatnie 7 dni)

Data	Indeks aktywności
Mar 26, 2026	88.0
Mar 27, 2026	82.7
Mar 28, 2026	83.1
Mar 29, 2026	81.8
Mar 30, 2026	87.3
Mar 31, 2026	90.2
Apr 1, 2026	88.9

Źródło: Cloudflare Radar

Dlaczego warto śledzić ruch New York Times Newsgathering?

Identyfikuj i klasyfikuj nieznaną aktywność crawlerów. New York Times Newsgathering może pojawiać się w logach serwera z różną częstotliwością. Śledzenie zachowania pomaga zdecydować, czy zezwolić, ograniczyć czy zablokować na podstawie danych.

Chroń budżet crawlowania. Każde żądanie bota pochłania zasoby serwera. Zrozumienie, co New York Times Newsgathering crawluje, pomaga priorytetyzować crawlery, które mają znaczenie.

Weryfikacja w logach

Aby zweryfikować ruch New York Times Newsgathering w logach serwera:

Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez The New York Times)
Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne

Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.

Nieudokumentowane informacje

Następujące informacje nie są oficjalnie udokumentowane dla New York Times Newsgathering:

crawl frequency
request pattern
JavaScript rendering details

Oficjalna dokumentacja

Zobacz oficjalną dokumentację New York Times Newsgathering →

Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.