Google игнорирует мой robots.txt [закрыто]


Вот содержание моего robots.txt файл:

User-agent: *
Disallow: /images/
Disallow: /upload/
Disallow: /admin/

Как вы можете видеть, я явно запретил всем роботам индексировать папки images, upload и admin. Проблема в том, что один из моих клиентов отправил запрос на удаление содержимого из папки изображений, потому что документ .pdf из папки images появился в результатах поиска Google. Кто-нибудь может объяснить мне, что я здесь делаю не так, и почему Google проиндексировал мои папки?

Спасибо!

Author: MrD, 2014-09-10

1 answers

Цитирование Документы Google для веб-мастеров

Если я заблокирую Google от обхода страницы с помощью robots.txt запретить директиву, она исчезнет из результатов поиска?

Блокировка Google от обхода страницы, скорее всего, снизит рейтинг этой страницы или приведет к ее полному выпадению с течением времени. Это также может уменьшить объем информации, предоставляемой пользователям в тексте под результатом поиска. Это происходит потому, что без содержимого страницы поиск двигатель имеет гораздо меньше информации для работы.

--

Однако, robots.txt Запрет не гарантирует, что страница не появится в результатах: Google все равно может решить, основываясь на внешней информации, такой как входящие ссылки, что она актуальна. Если вы хотите явно заблокировать индексирование страницы, вам следует вместо этого использовать мета-тег noindex robots или HTTP-заголовок X-Robots-Tag. В этом случае вы не должны запрещать страницу в robots.txt, потому что страница должна быть просмотрена, чтобы тег был виден и соблюдался.

Установите заголовок X-Robots-Tag без индекса для всех файлов в папках. Установите этот заголовок в конфигурации вашего веб-сервера для папок. https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=de

  1. Установите заголовок из конфигурации Apache для файлов pdf:

    <Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>

  2. Отключите индексирование /перечисление каталогов этой папки.

  3. Добавить пустой index.html с метатегом роботов "noindex".

    <meta name="robots" content="noindex, nofollow" /> <meta name="googlebot" content="noindex" />

  4. Принудительное удаление проиндексированных страниц вручную с помощью инструментов веб-мастера.


Вопрос в комментарии: Как запретить все файлы в папке?

// 1) Deny folder access completely
<Directory /var/www/denied_directory>
    Order allow,deny
</Directory>

// 2) inside the folder, place a .htaccess, denying access to all, except to index.html
Order allow,deny
Deny from all
<FilesMatch index\.html>
        Allow from all
</FilesMatch>

// 3) allow directory, but disallow specifc environment match
BrowserMatch "GoogleBot" go_away_badbot
BrowserMatch ^BadRobot/0.9 go_away_badbot

<Directory /deny_access_for_badbot>
order allow,deny
allow from all
deny from env=go_away_badbot
</Directory>  

// 4) or redirect bots to main page, sending http status 301
BrowserMatch Googlebot badbot=1
RewriteEngine on
RewriteCond %{ENV:badbot} =1
RewriteRule ^/$ /main/  [R=301,L]
 7
Author: Jens A. Koch, 2014-09-11 23:02:06