Как я могу выяснить, как поисковая система находит скрытые страницы?


У нас есть система, в которой размещено множество веб-сайтов для наших клиентов, и внутри этой системы есть метод, с помощью которого неживые клиенты могут просматривать свои сайты, прежде чем мы их включим. Скажем, ссылка выглядит примерно так: ourbigcompany.com/customer/domain=thisisanewsiteurl

Эти ссылки не связаны ни с чем, кроме безопасного входа в систему - они отправляются клиенту только по электронной почте. Они доступны для публичного просмотра, как и должно быть, но это не настоящая проблема. То реальная проблема заключается в том, что каким-то образом Bing получает их и пытается сканировать сайты. Я знаю, как остановить ползание, но это было бы похоже на лечение симптомов без устранения проблемы.

Мы регистрируем трафик, а реферера нет - так что это бесполезно.

Если я изменю значение строки запроса для сайта, Bing получит его в течение нескольких часов. Мне нужно выяснить, откуда Bing получает ссылки, чтобы я мог закрыть то, что, очевидно, является дырой в безопасности, но я не уверен, как это сделать. Есть идеи, как это выяснить?

Author: Jen R, 2015-03-04

1 answers

Вы не сможете точно узнать, как поисковые системы получили URL-адрес. Они не сообщают вам эту информацию. Существует несколько возможных способов, которыми это могло произойти:

  • Пользователь сам делится или публикует ссылку
  • На сайте есть ссылка на другой сайт. При нажатии на эту ссылку секретный URL-адрес отправляется в качестве ссылки. Некоторые сайты публикуют URL-адреса ссылок в местах, где их могут найти поисковые системы.
  • Некоторые браузеры отправляют информацию о каждая страница, которую вы посещаете, напрямую связана с компаниями, которые управляют поисковыми системами. Google, по крайней мере, говорит, что они не полагаются на какие-либо отправленные данные для подачи своего искателя. Некоторые функции браузера, которые полагаются на это, следующие:
    • Функции безопасного просмотра, которые помечают вредоносные страницы во время просмотра
    • Панели инструментов индикатора Pagerank
  • Использование социальных кнопок на странице, таких как кнопки Google +1
  • Использование аналитического программного обеспечения
  • Размещение рекламы на сайте
  • Любой 3-й стороннее использование JavaScript, CSS или изображений
  • Электронное письмо, которое вы отправляете со ссылкой, проходит через почтовый сервер, принадлежащий поисковой системе (Gmail, Hotmail). Ссылки в таком электронном письме могут быть собраны для обхода.

Как говорит Google:

Практически невозможно сохранить веб-сервер в секрете, не публикуя ссылки на него. Как только кто-то перейдет по ссылке с вашего "секретного" сервера на другой веб-сервер, ваш "секретный" URL-адрес может появиться в теге ссылки и может быть сохранен и опубликован другим веб-сервером в его журнале ссылок...

Если вы хотите запретить Googlebot сканировать контент на вашем сайте, у вас есть несколько вариантов , включая использование robots.txt чтобы заблокировать доступ к файлам и каталогам на вашем сервере.

 1
Author: Stephen Ostermiller, 2015-03-05 16:12:38