Googlebot наводняет сервер запросами на нежелательные URL-адреса со случайными данными


У меня возникли некоторые проблемы с GoogleBot. Он продолжает запрашивать случайный URL-адрес, которого не существует. Он пытается получить доступ:www.example.com/index.php/{TOKEN}

Это {TOKEN} действительно случайно, понятия не имею, откуда оно взялось. Я пытаюсь ответить, что страниц не существует, перенаправив 301 на домашнюю страницу (не уверен, что это хорошая идея).

Это приводит к перегрузке моего сервера, потому что это ТОННЫ ЗАПРОСОВ! Что я должен сделать, чтобы остановить это?

Журнал доступа:

example.com 66.249.64.28 - - [21/Feb/2018:12:13:48 -0300] "GET /index.php/66t-2nkznwh_91f4690bjij1wbgziq- HTTP/1.1" 301 178 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"

Author: Stephen Ostermiller, 2018-02-21

2 answers

  • "Что мне делать". В качестве немедленного действия я бы установил правило в конфигурации веб-сервера (например, .htaccess), чтобы ответить на это 404. 404 - это в случае, если у вас нет /index.php в качестве допустимого пути на вашем сервере. Донг так, по крайней мере, сбросит нагрузку с вашего интерпретатора (я предполагаю, что это PHP).
  • Далее я бы ввел правило robots.txt запретить индексирование такого пути. Это должно полностью остановить Google от обхода этих URI и прекратить тратить на них бюджет обхода.
  • После этого я бы поискал для ссылок на ваш сайт используйте один из этих URI. Кто знает, может быть, это поможет вам найти причину, по которой эти ссылки приходят в Google. Что, если это ваш собственный сайт?

Вот и все, я думаю.

PS 301, я думаю, не очень хорошая идея. По моему опыту, бот будет время от времени возвращаться, чтобы подтвердить, что перенаправление все еще существует. Я думаю, это не то, чего ты хочешь. Более того, 404 действительно лучше подходит для определения.

Случайный URL-адрес, который не существует

 1
Author: George, 2018-02-21 16:26:23

Я обнаружил, что Googlebot сканирует URL-адреса на моем сайте, которые не существуют, не содержат контента и не связаны ни с какими страницами. Исследования показали, что, похоже, Google вводит слова в строки поиска веб-сайтов и просматривает результаты поиска.

Вы можете ограничить запросы на обход, которые Googlebot отправляет на ваш сайт, в консоли веб-мастера.

Если вы считаете, что перенаправление 301 этой страницы обратно на главную страницу не помогает Google сканировать ваш сайт, вы можете установить статус заголовка до 403 запрещен на этой странице. Это потенциально остановит Googlebot от поездки туда. Если он находится в определенном каталоге, вы также можете запретить роботам в robots.txt .

 0
Author: Michael d, 2018-02-21 20:07:26