Бот Bing следит за пользователем на страницах, защищенных паролем?


Я вижу некоторый трафик на нашем классическом веб-сайте ASP от проверенного бота Bing, который, похоже, следит за моим текущим пользователем.

Например, если этот пользователь добавляет товар в свою корзину покупок, через 2-24 часа приходит бот Bing и пытается добавить те же товары в свою корзину. Теперь я подтвердил, что все, что этот пользователь делает на моем сайте, отражается несколькими ботами Bing в течение 24 часов.

Мне интересно, видел ли кто-нибудь там что-то вроде этого, и если для этого есть известная причина? Наш сайт защищен паролем, и я никогда не видел (за 15 лет), чтобы бот-паук пытался индексировать или нажимал на какие-либо из этих защищенных URL-адресов раньше, поэтому мне очень любопытно, что здесь происходит.

Спасибо!

РЕДАКТИРОВАТЬ: Для ясности: эти боты Bing на самом деле не попадают на страницы, которые посещает мой пользователь, так как все они защищены паролем. Они пытаются получить доступ к URL-адресу, а затем перенаправляются на мою страницу входа, потому что у них нет был аутентифицирован.

 6
Author: Doctor McDoctor, 2016-02-01

3 answers

Возможно, у этого пользователя установлена панель инструментов из Bing. Эта панель инструментов может отправлять посещенные URL-адреса в Bing, и Bingbot может (попытаться) сканировать эти URL-адреса.

Из searchengineland.com статья О Том, Как Панель Инструментов Bing Может Случайно Отправлять Личные Страницы И Объявления:

Корпорация Майкрософт подтвердила, что они обнаруживают и индексируют URL-адреса, которые они находят через пользователей, путешествующих по Интернету с установленной панелью инструментов Bing.

[…]

Дуэйн Форрестер, старший менеджер по продуктам Microsoft, сказал нам:

Да, как и в случае с некоторыми другими панелями инструментов, панель инструментов Bing (с разрешения пользователя) может записывать открытые (не https) веб-сайты, которые посетил пользователь, чтобы расширить наши знания об Интернете, чтобы улучшить результаты поиска, которые мы предоставляем пользователям. Это, в свою очередь (если позволяет сайт), действительно может привести к обнаруженным нами ссылкам для обхода. […]

(Статья датирована 2012 годом. Я не знаю, изменилось ли что-то изменилось с тех пор.)

 3
Author: unor, 2020-06-16 10:32:57

Я действительно испытал это в какой-то момент на своем сайте.

Что вы можете сделать для решения этой проблемы, так это сделать ссылки, к которым роботы поисковых систем не должны обращаться, ссылками на основе СООБЩЕНИЙ.

Вот как вы делаете это идеально с хорошей совместимостью практически для каждого изобретенного браузера:

Создайте форму с помощью метода post. Например:

  <form action="http://example.com/robots-cant-access-this.asp" method="POST">
  <input type="hidden" name="parametertoscript" value="valueforscriptparameter">
  <input type="hidden" name="secondparametertoscript" value="valueforsecondscriptparameter">
  <input type="hidden" name="nthparametertoscript" value="valuefornthscriptparameter">
  <input type="submit" value="button label to show to public">
  </form>

Затем в вашем asp-коде вам нужно проверить, что метод запроса - POST, и если это не так, то не делайте этого продолжайте процесс создания корзины. На самом деле, верните 410, чтобы роботы не продолжали пытаться получить доступ к URL-адресам, к которым вы не хотите, чтобы они обращались.

Я недостаточно хорошо владею ASP, но вот псевдокод, с которого вы начнете:

Get value of request method
If Request method equals post then
     process requested page to client
else
     issue HTTP error 410 GONE
     print error
end if
exit
 1
Author: Mike -- No longer here, 2016-02-02 02:12:23

Вы случайно не отправляете некоторые из этих URL-адресов по почте? В этом случае заголовок nosniff может помочь предотвратить обнюхивание страницы почтовыми клиентами.

Hotmail будет использовать Bing-бота, Gmail будет использовать поисковый робот Google и так далее.

Вот фрагмент nosniff для htccess:

# Add headers to all responses.
<IfModule mod_headers.c>
  # Disable content sniffing, since it's an attack vector.
  Header always set X-Content-Type-Options nosniff
</IfModule>
 1
Author: Neograph734, 2016-02-03 09:20:14