Бот Bing следит за пользователем на страницах, защищенных паролем?
Я вижу некоторый трафик на нашем классическом веб-сайте ASP от проверенного бота Bing, который, похоже, следит за моим текущим пользователем.
Например, если этот пользователь добавляет товар в свою корзину покупок, через 2-24 часа приходит бот Bing и пытается добавить те же товары в свою корзину. Теперь я подтвердил, что все, что этот пользователь делает на моем сайте, отражается несколькими ботами Bing в течение 24 часов.
Мне интересно, видел ли кто-нибудь там что-то вроде этого, и если для этого есть известная причина? Наш сайт защищен паролем, и я никогда не видел (за 15 лет), чтобы бот-паук пытался индексировать или нажимал на какие-либо из этих защищенных URL-адресов раньше, поэтому мне очень любопытно, что здесь происходит.
Спасибо!
РЕДАКТИРОВАТЬ: Для ясности: эти боты Bing на самом деле не попадают на страницы, которые посещает мой пользователь, так как все они защищены паролем. Они пытаются получить доступ к URL-адресу, а затем перенаправляются на мою страницу входа, потому что у них нет был аутентифицирован.
3 answers
Возможно, у этого пользователя установлена панель инструментов из Bing. Эта панель инструментов может отправлять посещенные URL-адреса в Bing, и Bingbot может (попытаться) сканировать эти URL-адреса.
Корпорация Майкрософт подтвердила, что они обнаруживают и индексируют URL-адреса, которые они находят через пользователей, путешествующих по Интернету с установленной панелью инструментов Bing.
[…]
Дуэйн Форрестер, старший менеджер по продуктам Microsoft, сказал нам:
Да, как и в случае с некоторыми другими панелями инструментов, панель инструментов Bing (с разрешения пользователя) может записывать открытые (не https) веб-сайты, которые посетил пользователь, чтобы расширить наши знания об Интернете, чтобы улучшить результаты поиска, которые мы предоставляем пользователям. Это, в свою очередь (если позволяет сайт), действительно может привести к обнаруженным нами ссылкам для обхода. […]
(Статья датирована 2012 годом. Я не знаю, изменилось ли что-то изменилось с тех пор.)
Я действительно испытал это в какой-то момент на своем сайте.
Что вы можете сделать для решения этой проблемы, так это сделать ссылки, к которым роботы поисковых систем не должны обращаться, ссылками на основе СООБЩЕНИЙ.
Вот как вы делаете это идеально с хорошей совместимостью практически для каждого изобретенного браузера:
Создайте форму с помощью метода post. Например:
<form action="http://example.com/robots-cant-access-this.asp" method="POST">
<input type="hidden" name="parametertoscript" value="valueforscriptparameter">
<input type="hidden" name="secondparametertoscript" value="valueforsecondscriptparameter">
<input type="hidden" name="nthparametertoscript" value="valuefornthscriptparameter">
<input type="submit" value="button label to show to public">
</form>
Затем в вашем asp-коде вам нужно проверить, что метод запроса - POST, и если это не так, то не делайте этого продолжайте процесс создания корзины. На самом деле, верните 410, чтобы роботы не продолжали пытаться получить доступ к URL-адресам, к которым вы не хотите, чтобы они обращались.
Я недостаточно хорошо владею ASP, но вот псевдокод, с которого вы начнете:
Get value of request method
If Request method equals post then
process requested page to client
else
issue HTTP error 410 GONE
print error
end if
exit
Вы случайно не отправляете некоторые из этих URL-адресов по почте? В этом случае заголовок nosniff может помочь предотвратить обнюхивание страницы почтовыми клиентами.
Hotmail будет использовать Bing-бота, Gmail будет использовать поисковый робот Google и так далее.
Вот фрагмент nosniff для htccess:
# Add headers to all responses.
<IfModule mod_headers.c>
# Disable content sniffing, since it's an attack vector.
Header always set X-Content-Type-Options nosniff
</IfModule>