Przejdź do treści
Can AI see it

Sprawdź, co widzi AI. Zmierz, ile to warte.

Czym jest New York Times Newsgathering?

Krótka odpowiedź: Bot New York Times Newsgathering zbiera publiczne dane nieobjęte prawami autorskimi do użytku redakcyjnego.

Operator: The New York Times Typ: Inny bot Cel: Zbieranie publicznych danych nieobjętych prawami autorskimi do użytku redakcyjnego

Bot New York Times Newsgathering jest używany przez programistów w newsroomie NYT do zbierania publicznych danych nieobjętych prawami autorskimi z rządowych i komercyjnych stron internetowych. Jest wykorzystywany do zadań takich jak projekty archiwalne i zbieranie danych do celów publicznych, w tym stron wyborów w USA i trackerów Covid-19. Bot stosuje najlepsze praktyki branżowe, w tym kontrolowanie wolumenu żądań, ograniczanie tempa oraz identyfikowanie się za pomocą niestandardowych UserAgents i nagłówków X.

Identyfikacja User-Agent

Następujące ciągi user-agent identyfikują New York Times Newsgathering w logach Twojego serwera:

  • Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 nyt_scraping/scraping@nytimes.com

Reguły robots.txt dla New York Times Newsgathering

Respektuje robots.txt: Nie

Robots.txt ma ograniczony wpływ na boty inicjowane przez użytkowników

New York Times Newsgathering jest uruchamiany przez działania użytkowników w produktach The New York Times. Mimo że The New York Times deklaruje respektowanie robots.txt, bot działa inaczej niż autonomiczne crawlery — pobiera konkretne URL-e na żądanie zamiast systematycznie crawlować stronę. Monitoring logów serwera to jedyny niezawodny sposób weryfikacji.

Potrzebujesz ciągłej weryfikacji ponad 500 botów? Can AI See It automatyzuje ten proces.

Zachowanie crawlera

Częstotliwość:Not Documented

Wzorzec żądań:Not Documented

Cytaty z oficjalnej dokumentacji

"Coders within The New York Times newsroom write scripts and scrapers that collect public, non-copyright data from government and commercial websites, ranging from archival tasks to public-service data like our U.S. Elections pages and Covid-19 trackers."

"We bake-in industry best practices like controlling the volume of requests, throttling/concurrency and identifying our work with custom UserAgents and X-headers."

Indeks aktywności crawlera

Względna aktywność crawlera New York Times Newsgathering w ciągu ostatnich 28 dni. Wyższe wartości oznaczają zwiększoną intensywność crawlowania w porównaniu z bazą okresu.

Pokaż dane aktywności (ostatnie 7 dni)
Data Indeks aktywności
Mar 26, 2026 88.0
Mar 27, 2026 82.7
Mar 28, 2026 83.1
Mar 29, 2026 81.8
Mar 30, 2026 87.3
Mar 31, 2026 90.2
Apr 1, 2026 88.9

Źródło: Cloudflare Radar

Dlaczego warto śledzić ruch New York Times Newsgathering?

Identyfikuj i klasyfikuj nieznaną aktywność crawlerów. New York Times Newsgathering może pojawiać się w logach serwera z różną częstotliwością. Śledzenie zachowania pomaga zdecydować, czy zezwolić, ograniczyć czy zablokować na podstawie danych.

Chroń budżet crawlowania. Każde żądanie bota pochłania zasoby serwera. Zrozumienie, co New York Times Newsgathering crawluje, pomaga priorytetyzować crawlery, które mają znaczenie.

Weryfikacja w logach

Aby zweryfikować ruch New York Times Newsgathering w logach serwera:

  1. Szukaj w logach dostępu ciągów user-agent wymienionych powyżej
  2. Sprawdź, czy adresy IP pasują do udokumentowanych zakresów (jeśli podane przez The New York Times)
  3. Zweryfikuj, czy wzorzec crawlowania odpowiada udokumentowanemu zachowaniu
  4. Użyj odwrotnego wyszukiwania DNS do dodatkowej weryfikacji, jeśli dostępne

Note: Obserwowane zachowanie w środowiskach produkcyjnych może różnić się od oficjalnej dokumentacji. Monitoring logów serwera zapewnia jedyną niezawodną weryfikację rzeczywistego zachowania botów.

Nieudokumentowane informacje

Następujące informacje nie są oficjalnie udokumentowane dla New York Times Newsgathering:

  • crawl frequency
  • request pattern
  • JavaScript rendering details

Oficjalna dokumentacja

Zobacz oficjalną dokumentację New York Times Newsgathering →

Informacje pochodzą z oficjalnej dokumentacji. Treść wygenerowana z pomocą AI.