Что такое хороший robots.txt?


Для чего "лучшая" настройка robots.txt?
Я использую следующую структуру постоянных ссылок /%category%/%postname%/.

Мой robots.txt в настоящее время выглядит так (скопировано откуда-то давным-давно):

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
  1. Я хочу, чтобы мои комментарии были проиндексированы. Так что я могу удалить это
  2. Хочу ли я запретить индексирование категорий из-за моей структуры постоянных ссылок?
  3. Статья может иметь несколько тегов и находиться в нескольких категориях. Это может привести к дубликатам в поиске провайдеры, такие как Google. Как мне обойти это?

Не могли бы вы изменить здесь что-нибудь еще?

Author: Volker E., 2010-12-13

6 answers

FWIW, URL-адреса отслеживания перенаправляют и не содержат содержимого, поэтому они не будут индексироваться.

И, рискуя не ответить на вопрос, повторите свои пункты 2 и 3:

Http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html

Иными словами, я думаю, что вы напрасно тратите свое время, беспокоясь о содержимом dup и своем robots.txt должно быть ограничено:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache
 3
Author: Denis de Bernardy, 2015-03-27 18:45:14

Прошло много времени с тех пор, как были опубликованы этот вопрос и ответ. С тех пор многое изменилось. Типичная рекомендация о запрете доступа искателей wp-content/themes, wp-content/plugins, wp-content/cache, wp-includes, и любой другой каталог, содержащий файлы CSS или js, необходимые для сайта, больше не действительны.

Например, давайте поговорим о Google. Googlebot визуализировал веб-сайты без CSS и без js, но не на самом деле. На самом деле Googlebot заполняет полный документ и проверяет такие вещи, как скорость отклика, количество, расположение и размер скриптов и т.д. Поэтому Google не нравится, если вы запрещаете Googlebot получать доступ к CSS и js-файлам. Это означает, что вы не должны запрещать wp-content/themes, wp-content/plugins, wp-content/cache и wp-includes из-за всех этих папок могут использоваться файлы CSS и js.

С моей точки зрения, на самом деле лучший robots.txt файл - это файл, созданный WordPress по умолчанию ( ниже robots.txt является значением по умолчанию с момента WP 4.0):

User-agent: *
Disallow: /wp-admin/

Если у вас есть папка cgi-bin, она может быть хорошей идеей запретить папку cgi-bin:

User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/

И если вы используете карту сайта, рекомендуется включить ссылку на карту сайта в robots.txt (вам все еще нужно вручную отправить карту сайта в инструменты веб-мастеров Google и Bing, но ссылка может быть полезна другим поисковым роботам):

User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/

Sitemap: http://example.com/sitemap.xml

То есть в целом. Определенным веб-сайтам может потребоваться запретить другие папки и файлы, которые следует изучать в каждом конкретном случае. Для exmaple вам может потребоваться или вы можете запретить определенный папка плагина:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/plugins/plugin-folder/

Для изменения robots.txt, используйте фильтр robots_txt (используя реальный robots.txt файл приведет к тому, что WordPress больше не сможет обрабатывать robots.txt). Например:

add_filter( 'robots_txt', function( $output ) {

    $output .= "Disallow: /cgi-bin/\n";
    $output .= "Disallow: /wp-content/plugins/plugin-folder-i-want-to-block/\n";
    $output .= "\nSitemap: " . site_url( 'sitemap.xml' ) . "\n";

    return $output;

});
 4
Author: cybmeta, 2015-04-24 17:18:12

Вы смотрели на SEO-плагин WordPress от Yoast? Это определенно справляется robots.txt проблемы.

 2
Author: ZaMoose, 2010-12-13 12:32:59

С небольшой помощью это теперь шахты (по-видимому, не сильно отличается от всех остальных)

User-agent: *
    Allow: /

Disallow: /wp-content/
    Disallow: /wp-admin/
    Disallow: /cat/
    Disallow: /key/
    Disallow: /*?
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes

User-agent: Mediapartners-Google
    Allow: /

User-agent: Adsbot-Google
    Allow: /

User-agent: Googlebot-Image
    Allow: /

User-agent: Googlebot-Mobile
    Allow: /

#User-agent: ia_archiver-web.archive.org
    #Disallow: /

Sitemap: YOURSITENAME.HERE
 2
Author: Cardin, 2015-03-27 18:14:21

Вы должны следовать текущему подходу Йоста де Валка , в котором очень мало заблокировано в robots.txt, но также понимать, что у каждого сайта будет уникальная подходящая политика, которую необходимо будет пересмотреть и изменить с течением времени.

Многие ответы, приведенные здесь ранее, устарели и приведут к самосаботажу SEO, поскольку Google теперь проверяет "мобильность". Сегодня гуглботы пытаются загрузить все, что делает обычный браузер, включая шрифты, изображения, JavaScript и CSS ресурсы из /wp-контента, /тем, /плагинов и т.д. (Мортен Ранд-Хендриксен недавно написал об этом в блоге.)

Вы можете использовать средство проверки сайтов Google "для мобильных устройств" , чтобы узнать, не саботирует ли ваш файл robots.txt ваш сайт. Если вы используете инструменты Google для веб-мастеров, вы должны получать оповещения и уведомления по электронной почте, если возникнут большие проблемы.

Если вы не позаботитесь о том, чтобы никакие ключевые презентационные или интерактивные ресурсы не загружались из запрещенных папок, это вероятно, абсолютный минимум, с которым каждая установка WordPress безопасна:

User-agent: *
Disallow: /wp-admin

И не забудьте добавить карту сайта:

Sitemap: http://yoursite.com/sitemap.xml

К сожалению, эта более открытая политика сегодня воссоздает потенциал для других проблем, которые ранее заставляли людей быть более строгими с robots.txt, такими как [разработчики плагинов и тем, включая индексируемые страницы со ссылками на их собственные сайты].4 С этим ничего нельзя поделать, если только вы не сможете просмотреть весь сторонний код со штрафом расчесывайте зубы и перемещайте или удаляйте вещи, которые вы не хотите индексировать.

 1
Author: Dan Knauss, 2015-03-26 21:08:56

К вашему сведению, всегда начинайте свою постоянную ссылку с номера. По опыту, это ускоряет страницу, потому что WordPress может быстро различать страницу и публикацию (я также читал, что где-то еще пробовал это.. и это правда). итакhttp:example.com/%month%/%post%...все будет хорошо

Я просто собираюсь скопировать то, что у меня есть. На это ушло много исследований. Это, наверное, перебор! Это помогает Google распознавать основные ключевые слова вашего сайта, как показано в инструменте Google для веб-мастеров. Надеюсь, что это помогает

User-agent: *
Allow: /
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /cgi-bin/
Sitemap: Url to sitemap1
Sitemap: Url to sitemap2

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.ico$
Disallow: /*.opml$
Disallow: /*.shtml$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /wp-*
Allow: /wp-content/uploads/ 

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

User-agent:  *
Disallow: /about/
Disallow: /contact-us/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-

# disallow archiving site
User-agent: ia_archiver
Disallow: /

# disable duggmirror
User-agent: duggmirror
Disallow: /

User-agent: Googlebot
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
 0
Author: Tech Joe, 2015-03-27 18:14:15