Полностью скрыть сайт от поисковых систем (Google, Bing и т.д.)


В моей компании работает несколько внутренних веб-сайтов, которые мы не хотим индексировать поисковыми системами, такими как Google, Bing и т.д.

Однако веб-сайты по-прежнему должны быть доступны для наших клиентов, и поэтому я не хочу использовать Защиту паролем HTTP.

Очевидно, у меня уже есть robots.txt содержащий:

User-agent: *
Disallow: /

Когда я ищу доменное имя, оно все равно отображается, и Google говорит: " Описание этого результата недоступен из-за этого сайта robots.txt ", в то время как Bing говорит " Мы хотели бы показать вам описание здесь, но сайт не позволяет нам.".

Как я могу гарантировать, что веб-сайты полностью скрыты в результатах поиска?

Author: Kristian, 2014-03-02

3 answers

Любой метод, основанный на хорошем поведении искателя, может потерпеть неудачу, поэтому лучшим вариантом является использование максимально возможной силы/полномочий, в данном случае самого веб-сервера. Если у вас есть доступ к конфигурации основного веб-сервера или, по крайней мере, к файлу .htaccess, вам следует использовать метод, включающий эти элементы.

Лучший способ - использовать пароль http, но если вы действительно не хотите его использовать, у вас все еще есть другой вариант.

Если вы знаете IP-адреса из ваших клиентов вы можете ограничить/разрешить это в своем .htaccess с помощью простого управления доступом кода, подобного этому

Order deny,allow
Deny from all
Allow from x.x.x.x
Allow from y.y.y.y

IP-адреса могут быть в форме x.x.x вместо x.x.x.x, что означает, что вы разрешите весь отсутствующий блок.

Вы можете объединить это с некоторыми заголовками HTTP. 403 говорит боту не ходить туда, они обычно пытаются несколько раз, на всякий случай, но это должно работать быстро, если сочетается с директивой deny.

Вы можете используйте код ответа HTTP, даже если вы не знаете IP-адреса своего клиента.

Другой вариант - перенаправить запрос на домашнюю страницу и использовать, например, HTTP-код 301, хотя я бы не рекомендовал этот метод. Даже когда это сработает, вы не говорите правду о ресурсе и о том, что с ним случилось, так что это не точный подход.

Обновление с учетом вашего комментария

Вы можете использовать [список строк агента пользователя из искателей], чтобы заблокируйте их в своем.htaccess., этот простой синтаксис сделает то, что вы хотите.

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|yahoo|yandex) [NC]
RewriteRule .* - [R=403,L]

Просто добавьте наиболее распространенные или те, которые были на вашем сайте.

 2
Author: PatomaS, 2014-03-08 11:01:23

Используйте Header set X-Robots-Tag "noindex". Это предотвращает попадание страниц в индекс поисковой системы.

В Apache вы можете поместить это в свой файл conf или файл .htaccess в корневом каталоге:

Header set X-Robots-Tag "noindex"
 3
Author: John Conde, 2014-03-06 04:13:58

Это происходит, когда Google или Bing обнаруживают ваш сайт и им не было сказано не индексировать сайт . Это происходит, когда есть ссылка или перенаправление на сайт и robots.txt ограничивает поисковую систему с сайта. Однако это не то же самое, что сказать поисковой системе не индексировать сайт .

Поместите <meta name="robots" content="noindex"> в заголовок вашего HTML всех страниц (предпочтительно) или, по крайней мере, на домашней странице, и поисковые системы должны вовремя удалить ваш сайт из индекса. Обычно это может занять 30-60 минут (для Google), но может занять больше времени. Все зависит от того, как быстро поисковая система повторно посещает ваш сайт, и от обработки в поисковой системе. Это также может занять менее 30 дней. Я просто хотел предупредить вас, что это может занять некоторое время.

На данный момент нет никакого вреда, за исключением того, что другие могут обнаружить ваш сайт. Если вы хотите ограничить посещение, то, возможно, необходим другой механизм. Я понимаю желание держать его открытым и не требовать учетной записи. На данный момент, Я не уверен, что у меня есть совет по ограничению посещений. Но также поймите, что мошеннические пауки также обнаружат ваш сайт и могут создавать ссылки независимо от ваших пожеланий. Подумайте о том, как вы можете контролировать доступ, если и когда это произойдет, и если контроль важен для вас.

 2
Author: closetnoc, 2014-03-02 22:32:51