Как заблокировать самые популярные сканеры-пауки с помощью robots.txt?


Я хочу запретить индексацию моего веб-сайта через robots.txt с помощью ботов-пауков MSN/Bing, Yahoo, Ask Jeeves, Baidu и Яндекса.

Я хочу запретить поисковые роботы контента и мультимедиа (изображений, видео).

Причина этого в том, что мой веб-сайт предназначен только для Google и рынка США и расположен на хостинге с ограниченными ресурсами.

Я нашел разные правила, когда гуглил и объединял все вместе:

# Block Bing
User-agent: bingbot
Disallow: /

User-agent: msnbot
Disallow: /

# Block Yahoo
User-agent: slurp
User-agent: yahoo
Disallow: /

# Block Ask
User-agent: jeeves
User-agent: teoma
Disallow: /

# Block Baidu
User-agent: baidu
Disallow: /

# Block Yandex
User-agent: yandex
Disallow: /

Являются ли эти правила правильно?

Или я что-то пропустил?

Или, может быть, я добавил что-то лишнее?

Есть ли какой-либо официальный robots.txt правила для каждого веб-искателя?

Author: webvitaly, 2015-11-26

1 answers

Если вы протестируете robots.txt в одном из многих robot.txt валидаторы вы увидите, что он делает то, что вы хотите.

Например, использование txt-валидатора seobook robot показывает, что при тестировании на URL/эти боты не должны использовать ваш веб-сайт.

Если вы действительно хотите, это другой вопрос. Если бот, сканирующий веб-сайт, слишком сильно нагружает ресурсы, то, возможно, вам также нужно посмотреть производительность веб-сайта и/или сервера.

 2
Author: Marco Tolk, 2015-11-26 15:39:51