Что такое хороший robots.txt?
Для чего "лучшая" настройка robots.txt
?
Я использую следующую структуру постоянных ссылок /%category%/%postname%/
.
Мой robots.txt
в настоящее время выглядит так (скопировано откуда-то давным-давно):
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
- Я хочу, чтобы мои комментарии были проиндексированы. Так что я могу удалить это
- Хочу ли я запретить индексирование категорий из-за моей структуры постоянных ссылок?
- Статья может иметь несколько тегов и находиться в нескольких категориях. Это может привести к дубликатам в поиске провайдеры, такие как Google. Как мне обойти это?
Не могли бы вы изменить здесь что-нибудь еще?
6 answers
FWIW, URL-адреса отслеживания перенаправляют и не содержат содержимого, поэтому они не будут индексироваться.
И, рискуя не ответить на вопрос, повторите свои пункты 2 и 3:
Http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html
Иными словами, я думаю, что вы напрасно тратите свое время, беспокоясь о содержимом dup и своем robots.txt должно быть ограничено:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache
Прошло много времени с тех пор, как были опубликованы этот вопрос и ответ. С тех пор многое изменилось. Типичная рекомендация о запрете доступа искателей wp-content/themes
, wp-content/plugins
, wp-content/cache
, wp-includes
, и любой другой каталог, содержащий файлы CSS или js, необходимые для сайта, больше не действительны.
Например, давайте поговорим о Google. Googlebot визуализировал веб-сайты без CSS и без js, но не на самом деле. На самом деле Googlebot заполняет полный документ и проверяет такие вещи, как скорость отклика, количество, расположение и размер скриптов и т.д. Поэтому Google не нравится, если вы запрещаете Googlebot получать доступ к CSS и js-файлам. Это означает, что вы не должны запрещать wp-content/themes
, wp-content/plugins
, wp-content/cache
и wp-includes
из-за всех этих папок могут использоваться файлы CSS и js.
С моей точки зрения, на самом деле лучший robots.txt файл - это файл, созданный WordPress по умолчанию ( ниже robots.txt является значением по умолчанию с момента WP 4.0):
User-agent: *
Disallow: /wp-admin/
Если у вас есть папка cgi-bin, она может быть хорошей идеей запретить папку cgi-bin:
User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/
И если вы используете карту сайта, рекомендуется включить ссылку на карту сайта в robots.txt (вам все еще нужно вручную отправить карту сайта в инструменты веб-мастеров Google и Bing, но ссылка может быть полезна другим поисковым роботам):
User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/
Sitemap: http://example.com/sitemap.xml
То есть в целом. Определенным веб-сайтам может потребоваться запретить другие папки и файлы, которые следует изучать в каждом конкретном случае. Для exmaple вам может потребоваться или вы можете запретить определенный папка плагина:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/plugins/plugin-folder/
Для изменения robots.txt, используйте фильтр robots_txt
(используя реальный robots.txt файл приведет к тому, что WordPress больше не сможет обрабатывать robots.txt). Например:
add_filter( 'robots_txt', function( $output ) {
$output .= "Disallow: /cgi-bin/\n";
$output .= "Disallow: /wp-content/plugins/plugin-folder-i-want-to-block/\n";
$output .= "\nSitemap: " . site_url( 'sitemap.xml' ) . "\n";
return $output;
});
Вы смотрели на SEO-плагин WordPress от Yoast? Это определенно справляется robots.txt проблемы.
С небольшой помощью это теперь шахты (по-видимому, не сильно отличается от всех остальных)
User-agent: *
Allow: /
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /cat/
Disallow: /key/
Disallow: /*?
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
#User-agent: ia_archiver-web.archive.org
#Disallow: /
Sitemap: YOURSITENAME.HERE
Вы должны следовать текущему подходу Йоста де Валка , в котором очень мало заблокировано в robots.txt
, но также понимать, что у каждого сайта будет уникальная подходящая политика, которую необходимо будет пересмотреть и изменить с течением времени.
Многие ответы, приведенные здесь ранее, устарели и приведут к самосаботажу SEO, поскольку Google теперь проверяет "мобильность". Сегодня гуглботы пытаются загрузить все, что делает обычный браузер, включая шрифты, изображения, JavaScript и CSS ресурсы из /wp-контента, /тем, /плагинов и т.д. (Мортен Ранд-Хендриксен недавно написал об этом в блоге.)
Вы можете использовать средство проверки сайтов Google "для мобильных устройств" , чтобы узнать, не саботирует ли ваш файл robots.txt
ваш сайт. Если вы используете инструменты Google для веб-мастеров, вы должны получать оповещения и уведомления по электронной почте, если возникнут большие проблемы.
Если вы не позаботитесь о том, чтобы никакие ключевые презентационные или интерактивные ресурсы не загружались из запрещенных папок, это вероятно, абсолютный минимум, с которым каждая установка WordPress безопасна:
User-agent: *
Disallow: /wp-admin
И не забудьте добавить карту сайта:
Sitemap: http://yoursite.com/sitemap.xml
К сожалению, эта более открытая политика сегодня воссоздает потенциал для других проблем, которые ранее заставляли людей быть более строгими с robots.txt
, такими как [разработчики плагинов и тем, включая индексируемые страницы со ссылками на их собственные сайты].4 С этим ничего нельзя поделать, если только вы не сможете просмотреть весь сторонний код со штрафом расчесывайте зубы и перемещайте или удаляйте вещи, которые вы не хотите индексировать.
К вашему сведению, всегда начинайте свою постоянную ссылку с номера. По опыту, это ускоряет страницу, потому что WordPress может быстро различать страницу и публикацию (я также читал, что где-то еще пробовал это.. и это правда). итакhttp:example.com/%month%/%post%
...все будет хорошо
Я просто собираюсь скопировать то, что у меня есть. На это ушло много исследований. Это, наверное, перебор! Это помогает Google распознавать основные ключевые слова вашего сайта, как показано в инструменте Google для веб-мастеров. Надеюсь, что это помогает
User-agent: *
Allow: /
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /cgi-bin/
Sitemap: Url to sitemap1
Sitemap: Url to sitemap2
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.ico$
Disallow: /*.opml$
Disallow: /*.shtml$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /wp-*
Allow: /wp-content/uploads/
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
User-agent: *
Disallow: /about/
Disallow: /contact-us/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-
# disallow archiving site
User-agent: ia_archiver
Disallow: /
# disable duggmirror
User-agent: duggmirror
Disallow: /
User-agent: Googlebot
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*