Накладные расходы сервера, вызванные ботами?


У меня есть один веб-сайт для клиентов, вызывающий накладные расходы (http://www.modacalcio.it/en/by-kind/football-boots.html).

Открыв htop, я пытаюсь перемещаться по веб-сайту, и большая загрузка веб-сайта выполняется с помощью ссылки ajax, размещенной в левой части веб-сайта.

Веб-сайт размещен на VPS с 3 процессорами и 2 ГБ оперативной памяти, с достаточным количеством места на жестком диске.

Реальная проблема заключается в том, что этот веб-сайт новый и посещается мало.

Из модуля http-статуса я вижу, что накладные расходы вызывается ботами (ботами Google, ботами Bing, проверкой hrefs и так далее).

Поэтому я подумал, что это, вероятно, из-за тех пауков, которые пытаются обойти все эти ссылки сразу - может ли это быть причиной таких накладных расходов?

Я также вставил rel="nofollow" в эти ссылки, но это не отпугивает ботов.

Есть ли какой-либо способ с помощью кода или Plesk отключить эти ссылки на этих ботов?

Author: dan, 2013-08-01

1 answers

Накладные расходы, вероятно, вызваны данными и тем, как они обслуживаются:

Запуск диагностики, такой как здесь, показал, что каждый запрос на эту страницу приводит к 150 отдельным запросам размером более 2,2 МБ, загрузка которых занимает до 9 секунд. Глядя на ваши заголовки здесь , кажется, что у вас есть no-cache, указанный в Cache-Control и Pragma.

Возможно, вам захочется включить кэш HTTP, а также использовать сжатие gzip с вашим сервером Nginx (как указано в заголовках как ваш сервер). Смотрите это для получения дополнительной информации: Настройка кэша HTTP и gzip с помощью nginx Также смотрите эту статью Google: Как работает сжатие gzip

Вы также можете проверить конфигурацию основного модуля вашего сервера , чтобы убедиться, что для keepalive_disable установлено значение none, а для keepalive_requests установлено по крайней мере число по умолчанию (100). Для Apache в Plesk этот поток поможет с тот.

Мониторинг ресурсов вашей системы после этих изменений должен указывать, достаточна ли ваша конфигурация VPS или ее следует обновить.

Если вы все еще хотите запретить роботам обходить ссылки, укажите, что они запрещены в вашем robots.txt файл, как описано здесь.

 0
Author: dan, 2013-08-02 04:14:28