Поиск на сайте с помощью Python несуществующих ресурсов


Недавно я начал уделять больше внимания своим 404 ошибкам, чтобы исправить то, что я могу, и улучшить SEO и рейтинг моего сайта, и заметил кое-что, чего я не понимаю.

В моем журнале ошибок 404 я вижу довольно много поисков, выполняемых агентами пользователей, которые выглядят следующим образом:

Python-запросы/2.23.0 python-запросы 2.23.0

И несколько похожих.....но все они запрашивают файлы, которые не существуют.

Что такое поиск на python? Они похожи на плохих ботов? Как мне заблокировать или предотвратить их?

У меня тоже много плохих ботов, и я нашел более старый (2017) ресурс с некоторым кодом для их блокировки агентом пользователя в моем файле.htaccess, который я реализовал, но, похоже, он не работает - я все еще вижу журналы этих плохих ботов, которые также запрашивают в основном несуществующие ресурсы, а также множество сообщений с добавлением /email или /print..... есть ли действительно эффективный способ заблокировать плохих ботов? агенты-пользователи?

Author: Trisha, 2020-10-18

2 answers

Что такое поиск на python? Они похожи на плохих ботов?

Скорее всего, это просто "плохие боты", которые ищут потенциальные уязвимости.

Как мне заблокировать или предотвратить их?

Ну, судя по звукам, вы уже обслуживаете 404-й, так что это действительно не проблема. Однако вы можете предотвратить прохождение запроса через WordPress, заблокировав запрос в начале .htaccess, как вы, вероятно, уже делаете.

Например, в верхней части вашего .htaccess файл:

RewriteCond %{HTTP_USER_AGENT} python [NC]
RewriteRule ^ - [R=404]

Вышеизложенное отправляет 404 Не найдено ни для одного запроса от агента пользователя, который содержит "python" (без учета регистра).

Однако блокировка агентом пользователя не обязательно настолько надежна, поскольку многие "плохие боты" притворяются обычными пользователями.

Я нашел более старый (2017) ресурс с некоторым кодом для их блокировки агентом пользователя в моем файле .htaccess, который я реализовал, но, похоже, он не работает - я все еще вижу журналы этих плохих ботов

Если вы заблокируете "плохой бот" в .htaccess вы все равно увидите запрос в журнале доступа к вашему серверу. Однако в записи журнала должен отображаться статус HTTP как 403 или 404, если он заблокирован.

Единственный способ полностью заблокировать попадание запроса на ваш сервер (и его появление в журналах вашего сервера) - это если у вас есть внешний прокси-сервер/брандмауэр, который "экранирует" все ваши запросы.

 1
Author: MrWhite, 2020-10-18 19:25:54

Агенты пользователей могут быть любыми, их устанавливает клиент, поэтому я мог бы сделать запрос curl на ваш сайт и сообщить curl, что мой агент пользователя будет "Том - лучший"

Python-запросы/2.23.0 python-запросы 2.23.0

Этот конкретный агент пользователя подразумевает, что библиотека запросов python выполняет запрос, но нет никаких указаний на то, что использует библиотеку или почему (https://pypi.org/project/requests/ ).

Что касается их блокировки, это что-то вы бы сделали это на более глубоком уровне, чем WordPress. Похоже, вы уже знакомы с Apache HTAccess, могут быть более низкие уровни, на которых они могут быть заблокированы, или вашим хостом или прокси-серверами. Это выходило бы за рамки данного сайта

Что касается того, почему они запрашивают несуществующие ресурсы, может быть много причин:

  • Сайт в другом месте ссылается на них, и эти боты переползают и попадают в 404-е
  • Это эксплойты, вредоносное ПО будет регулярно стреляйте и забудьте весь свой арсенал в надежде, что один из них сработает. Они даже не утруждают себя проверкой того, что возвращается, мой WP-сайт регулярно подвергается атакам эксплойтов Drupal, несмотря на то, что они совершенно неэффективны.
  • Сломанные карты сайтов!
  • Эти ресурсы могли быть доступны на старых сайтах, которые были в домене до перестройки сайта

Единственный способ узнать наверняка - это каким-то образом найти кого-то, кто это делает, и спросить его, что обычно невозможно.

 2
Author: Tom J Nowell, 2020-10-18 19:18:32