Google Индексирует страницы без мета-тега index


Я получил сообщение в инструментах для веб-мастеров Google о том, что "Googlebot обнаружил чрезвычайно большое количество URL-адресов на вашем сайте" с длинным списком примеров URL-адресов.

Для некоторых из перечисленных страниц не было ничего, что могло бы помешать их индексированию. Однако для некоторых URL-адресов у меня есть "noindex, nofollow" мета-теги следующим образом:

<meta name="googlebot" content="noindex, follow" />
<meta name="bingbot" content="noindex, follow" />
<meta name="msnbot" content="noindex, follow" />
<meta name="slurp" content="noindex, follow" />
<meta name="teoma" content="noindex, follow" />

Я читал, что Google иногда индексирует страницы, которые вы блокируете в robots.txt если они найдут другую ссылку, которая указывает на страницу, но предположительно они уважают мета-теги?

Author: Simon Hayter, 2013-03-26

4 answers

Важно отметить, что nofollow, noindex и даже блокировка с помощью роботов не обязательно означают, что контент не будет сканироваться, на самом деле эти страницы все еще могут быть проиндексированы, но скорее скрыты от общедоступных результатов поиска (Да, Google непослушен, но это правда). Вы видите, что при использовании noindex на странице Google необходимо сканировать страницу, чтобы найти этот тег, Googlebot не просто обрабатывает одну строку за раз, а затем останавливается, когда попадает в этот тег, он загружает всю страницу, поэтому его скорее всего, об этом сообщается в инструментах Google для веб-мастеров.

Таким образом, вы можете видеть эти страницы в инструментах для веб-мастеров, но это не значит, что они включены в фактические результаты поиска, просто выполните site:yourdomain.com в поиске Google и посмотрите, найдены ли эти страницы, что, как я подозреваю, не так или каким-то образом тег был проигнорирован.

Google фактически рекомендует как мета-имя, так и роботов блокировать контент, доступный в общедоступных результатах поиска. Также вам не нужно использовать botname внутри мета-имени и простого "robots" должно получиться.

Ваше мета-имя должно выглядеть так:

<meta name="robots" content="noindex, nofollow">

И вы должны сделать robots.txt вот так

User-agent: *
Disallow: /foldername/
 4
Author: Simon Hayter, 2013-03-26 21:22:13

Похоже, что это должно быть правильно, в соответствии с инструкциями от Google. Несколько предложений:

  1. Убедитесь, что мета-теги находятся в пределах тега <head>

  2. Убедитесь, что мета-теги на самом деле говорят "noindex, nofollow" (в вашем коде написано "noindex, следуйте" - не уверен, что это просто ошибка копирования)

  3. Используйте стандарт <meta name="robots" content="noindex, nofollow"> вместо того, чтобы пытаться идти в ногу с различными поисковыми системами

  4. Подождите, пока Google просканирует ваш страницы снова, если вы только недавно добавили/изменили мета-теги, или используйте запрос на удаление URL-адресов , чтобы попытаться ускорить удаление некоторых URL-адресов.

 1
Author: joshuahedlund, 2013-03-26 21:21:52

Сообщение Инструментов веб-мастера "Googlebot обнаружил чрезвычайно большое количество URL-адресов на вашем сайте" просто говорит вам, что Googlebot нашел эти URL-адреса и сканирует их. В Google есть URL-адрес, немного объясняющий это и показывающий примеры, такие как "страницы календаря", которые продолжаются вечно.

С помощью своего мета-тега вы просто говорите Google прочитать страницу и выбросить содержимое noindex - но follow все ссылки на этой странице. Если вы не хотите, чтобы Google переходил по этим ссылкам, вам следует использовать nofollow вместо.

Установка запрета в robots.txt предотвратит доступ бота к вашему веб-сайту, но не сохранит ваши (связанные) страницы в поисковом индексе.

 1
Author: Patrick, 2013-03-28 17:49:07

Не добавляйте nofollow в свой noindex, так как вы хотите, чтобы PageRank передавал эти страницы другим обычно; вы просто не хотите, чтобы они индексировались.

Поэтому на страницах, которые вы не хотите индексировать, просто добавьте <meta name="robots" content="noindex, follow"> в раздел <head>.

Обязательно удалите свой robots.txt исключения, как и в случае с ними, мета не будет видна, и страницы не будут удалены.

Альтернативный, немного более запутанный метод состоит в том, чтобы исключить страницы в robots.txt, и используйте средство удаления URL-адресов Google в инструментах для веб-мастеров. Обратите внимание, что стандарт исключения роботов предотвратит индексацию только в том случае, если вы также выполните удаление URL-адресов с помощью инструмента Google, а не отмените их. Если они отменены в вашей учетной записи Инструментов для веб-мастеров, страницы могут быть снова проиндексированы, если, например, они обнаружены из источника, отличного от вашего сайта.

 0
Author: Mattypants, 2014-04-18 07:30:17