Google игнорирует мой robots.txt [закрыто]
Вот содержание моего robots.txt файл:
User-agent: *
Disallow: /images/
Disallow: /upload/
Disallow: /admin/
Как вы можете видеть, я явно запретил всем роботам индексировать папки images
, upload
и admin
. Проблема в том, что один из моих клиентов отправил запрос на удаление содержимого из папки изображений, потому что документ .pdf из папки images
появился в результатах поиска Google. Кто-нибудь может объяснить мне, что я здесь делаю не так, и почему Google проиндексировал мои папки?
Спасибо!
1 answers
Цитирование Документы Google для веб-мастеров
Если я заблокирую Google от обхода страницы с помощью robots.txt запретить директиву, она исчезнет из результатов поиска?
Блокировка Google от обхода страницы, скорее всего, снизит рейтинг этой страницы или приведет к ее полному выпадению с течением времени. Это также может уменьшить объем информации, предоставляемой пользователям в тексте под результатом поиска. Это происходит потому, что без содержимого страницы поиск двигатель имеет гораздо меньше информации для работы.
--
Однако, robots.txt Запрет не гарантирует, что страница не появится в результатах: Google все равно может решить, основываясь на внешней информации, такой как входящие ссылки, что она актуальна. Если вы хотите явно заблокировать индексирование страницы, вам следует вместо этого использовать мета-тег noindex robots или HTTP-заголовок X-Robots-Tag. В этом случае вы не должны запрещать страницу в robots.txt, потому что страница должна быть просмотрена, чтобы тег был виден и соблюдался.
Установите заголовок X-Robots-Tag без индекса для всех файлов в папках. Установите этот заголовок в конфигурации вашего веб-сервера для папок. https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=de
-
Установите заголовок из конфигурации Apache для файлов pdf:
<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>
Отключите индексирование /перечисление каталогов этой папки.
-
Добавить пустой index.html с метатегом роботов "noindex".
<meta name="robots" content="noindex, nofollow" /> <meta name="googlebot" content="noindex" />
Принудительное удаление проиндексированных страниц вручную с помощью инструментов веб-мастера.
Вопрос в комментарии: Как запретить все файлы в папке?
// 1) Deny folder access completely
<Directory /var/www/denied_directory>
Order allow,deny
</Directory>
// 2) inside the folder, place a .htaccess, denying access to all, except to index.html
Order allow,deny
Deny from all
<FilesMatch index\.html>
Allow from all
</FilesMatch>
// 3) allow directory, but disallow specifc environment match
BrowserMatch "GoogleBot" go_away_badbot
BrowserMatch ^BadRobot/0.9 go_away_badbot
<Directory /deny_access_for_badbot>
order allow,deny
allow from all
deny from env=go_away_badbot
</Directory>
// 4) or redirect bots to main page, sending http status 301
BrowserMatch Googlebot badbot=1
RewriteEngine on
RewriteCond %{ENV:badbot} =1
RewriteRule ^/$ /main/ [R=301,L]