Разрешать только ботам Google и Bing сканировать сайт
Я использую следующее robots.txt файл для сайта: Цель состоит в том, чтобы разрешить googlebot и bingbot доступ к сайту, кроме страницы /bedven/bedrijf/*
, и заблокировать всех других ботов от обхода сайта.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
Запрещает ли последнее правило User-agent: * Disallow: /
всем ботам сканировать все страницы сайта?
2 answers
За последней записью (начатой User-agent: *
) последуют все вежливые боты, которые не идентифицируют себя как "googlebot", "google", "bingbot" или "bing".
И да, это означает, что им не разрешается ничего ползать.
Возможно, вы захотите опустить *
в /bedven/bedrijf/*
.
В оригинале robots.txt спецификация *
не имеет особого значения, это просто символ, как и любой другой. Таким образом, это только запретило бы обход страниц, на которых буквально есть символ *
в их URL.
В то время как Google не следит за robots.txt спецификация в этом отношении, поскольку они используют *
в качестве подстановочного знака для "любой последовательности символов", в этом случае для них не требуется : /bedven/bedrijf/*
и /bedven/bedrijf/
означали бы одно и то же: блокировать все URL-адреса, путь к которым начинается с /bedven/bedrijf/
.
И, наконец, вы могли бы уменьшить свой robots.txt к двум записям, потому что запись может содержать несколько User-agent
строк:
User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10
User-agent: *
Disallow: /
Боты, особенно плохие, могут игнорировать robots.txt файл. Поэтому, что бы там ни было написано, некоторые боты могут сканировать ваш сайт.