Как заблокировать самые популярные сканеры-пауки с помощью robots.txt?
Я хочу запретить индексацию моего веб-сайта через robots.txt с помощью ботов-пауков MSN/Bing, Yahoo, Ask Jeeves, Baidu и Яндекса.
Я хочу запретить поисковые роботы контента и мультимедиа (изображений, видео).
Причина этого в том, что мой веб-сайт предназначен только для Google и рынка США и расположен на хостинге с ограниченными ресурсами.
Я нашел разные правила, когда гуглил и объединял все вместе:
# Block Bing
User-agent: bingbot
Disallow: /
User-agent: msnbot
Disallow: /
# Block Yahoo
User-agent: slurp
User-agent: yahoo
Disallow: /
# Block Ask
User-agent: jeeves
User-agent: teoma
Disallow: /
# Block Baidu
User-agent: baidu
Disallow: /
# Block Yandex
User-agent: yandex
Disallow: /
Являются ли эти правила правильно?
Или я что-то пропустил?
Или, может быть, я добавил что-то лишнее?
Есть ли какой-либо официальный robots.txt правила для каждого веб-искателя?
1 answers
Если вы протестируете robots.txt в одном из многих robot.txt валидаторы вы увидите, что он делает то, что вы хотите.
Например, использование txt-валидатора seobook robot показывает, что при тестировании на URL/эти боты не должны использовать ваш веб-сайт.
Если вы действительно хотите, это другой вопрос. Если бот, сканирующий веб-сайт, слишком сильно нагружает ресурсы, то, возможно, вам также нужно посмотреть производительность веб-сайта и/или сервера.