Разрешать только ботам Google и Bing сканировать сайт


Я использую следующее robots.txt файл для сайта: Цель состоит в том, чтобы разрешить googlebot и bingbot доступ к сайту, кроме страницы /bedven/bedrijf/*, и заблокировать всех других ботов от обхода сайта.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

Запрещает ли последнее правило User-agent: * Disallow: / всем ботам сканировать все страницы сайта?

Author: Stephen Ostermiller, 2015-01-12

2 answers

За последней записью (начатой User-agent: *) последуют все вежливые боты, которые не идентифицируют себя как "googlebot", "google", "bingbot" или "bing".
И да, это означает, что им не разрешается ничего ползать.

Возможно, вы захотите опустить * в /bedven/bedrijf/*.
В оригинале robots.txt спецификация * не имеет особого значения, это просто символ, как и любой другой. Таким образом, это только запретило бы обход страниц, на которых буквально есть символ * в их URL.
В то время как Google не следит за robots.txt спецификация в этом отношении, поскольку они используют * в качестве подстановочного знака для "любой последовательности символов", в этом случае для них не требуется : /bedven/bedrijf/* и /bedven/bedrijf/ означали бы одно и то же: блокировать все URL-адреса, путь к которым начинается с /bedven/bedrijf/.

И, наконец, вы могли бы уменьшить свой robots.txt к двум записям, потому что запись может содержать несколько User-agent строк:

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /
 24
Author: unor, 2017-05-23 12:37:06

Боты, особенно плохие, могут игнорировать robots.txt файл. Поэтому, что бы там ни было написано, некоторые боты могут сканировать ваш сайт.

 -3
Author: Atis Luguzs, 2016-11-29 17:16:09