Бингбот поражает несколько поддоменов одновременно, вызывая панику


У меня есть сайт с несколькими поддоменами. В определенные часы дня бингботы собирались на моем сайте и проводили массовое сканирование, подобное этому:

01:23:11 a.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 b.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 c.example.com GET /index HTTP/1.1 200 Bot.A
01:23:11 d.example.com GET /index HTTP/1.1 200 Bot.A
01:23:12 e.example.com GET /index HTTP/1.1 200 Bot.A
01:23:12 f.example.com GET /index HTTP/1.1 403 Bot.A
01:23:12 g.example.com GET /index HTTP/1.1 403 Bot.A
01:23:22 h.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 i.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 j.example.com GET /index HTTP/1.1 200 Bot.B
01:23:22 k.example.com GET /index HTTP/1.1 200 Bot.B
01:23:23 l.example.com GET /index HTTP/1.1 200 Bot.B
01:23:23 m.example.com GET /index HTTP/1.1 403 Bot.B
01:23:23 n.example.com GET /index HTTP/1.1 403 Bot.B

Поскольку боты сканируют несколько поддоменов, директива Crawl-delay: 1 в robots.txt не повлияет на такое поведение. Механизм защиты сервера сработает и заблокирует эти искатели, выдав 403 ошибки.

Есть ли способ равномерно распределить ползание Бингбота? Обход по умолчанию шаблон в инструменте веб-мастера Bing, похоже, не соблюдается.

Author: Question Overflow, 2014-09-24

2 answers

Это Винсент из Bing Webmaster Tools, и я заметил ваш пост.

Во-первых, мне жаль слышать о проблеме, с которой вы столкнулись при обходе нашего сканера по вашим поддоменам. Я уверен, что мы можем сделать лучше.

Пара вещей:

Я заметил, что вы упомянули, что настройка шаблона обхода в инструментах для веб-мастеров не работала. Причина в том, что при использовании директивы задержки обхода: в robots.txt и - эта директива всегда имеет приоритет над любым обходом Управляйте настройками в инструментах веб-мастера Bing, поэтому это работает не так, как ожидалось (см. Примечание в http://www.bing.com/webmaster/help/crawl-control-55a30302).

С другой стороны, поскольку приходится смягчать это с помощью нескольких специфичных для поддоменов robots.txt с разной задержкой обхода: директивы не являются оптимальными, у меня здесь нет хорошего решения для самообслуживания, поэтому я предлагаю вам обратиться в службу поддержки веб-мастеров Bing и поделиться информацией о домене/поддомене, чтобы они могли передайте его нужной команде для более тщательного изучения (они могут запросить журналы сервера, чтобы помочь в расследовании).

Чтобы связаться со службой поддержки веб-мастеров, перейдите по ссылке http://go.microsoft.com/fwlink/p/?linkid=261881 , заполните необходимые поля и в раскрывающемся списке "Какой тип проблемы у вас есть?" Выберите "Запрос с неполным или избыточным обходом" и опишите проблему, которую вы видите. Даже если они не вернутся с персонализированным ответом немедленно (это может занять 24-48 часов), это должен, по крайней мере, сдвинуться с мертвой точки.

 4
Author: Vincent Wehren, 2014-09-24 23:39:03

По моему опыту, боты MSN всегда были слишком неуправляемыми для robots.txt и они не приносят заметного преимущества в движении. За последние три года я стал очень нетерпим к их ужасному поведению. И да, они от Microsoft.

  • 403 их с перезаписью %{HTTP_USER_AGENT} в файле .htaccess

  • Используйте fail2ban или mod_security, чтобы заблокировать или ограничить скорость их блокировки

  • Оба вышеперечисленных

  • Соберите данные журнала и нулевой маршрут их

Они не заслуживают доступа.

 1
Author: , 2014-09-24 14:06:53