Robots.txt чтобы заблокировать параметр вместо каталога
Насколько я понимаю, URL-адреса имеют формат example.com/something/somethingelse .
Насколько я понимаю, параметры следуют за URL-адресом с вопросительным знаком пример.com?l=fr_FR
На моем веб-сайте CMS есть языковые переводы, в которых используются параметры. Приведенный выше пример относится к версии моего сайта на французском языке.
Я хотел бы заблокировать все неанглийские переводы из индекса Google с помощью robots.txt .
В инструменте заблокированные URL-адреса в GWT Я попытался проверить это:
# robots.txt generated at http://www.mcanerin.com
User-agent: *
Disallow:
Disallow: /cgi-bin/
Disallow: ?l=
Против следующего URL-адреса, который появился как один из дубликатов заголовков страниц в улучшениях HTML.
https://example.com/reports/view/884?l=eu
Я впервые играю с этим инструментом в GWT, поэтому я не уверен, правильно ли я его использую.
Результаты теста для Googlebot говорят
Разрешено строкой 3: Запретить:
Я хотел, чтобы код не позволял Google индексировать любые URL-адреса, содержащие следующую строку
?l=
Вот несколько примеров URL-адресов, которые я хотел бы заблокировать из индекса. Эти URL-адреса генерируют повторяющиеся заголовки в соответствии с GWT. /отчеты/просмотр/884?l=км /отчеты/просмотр/884?l=ne_np /отчеты/просмотр/884?l=te /index.php/страница/индекс/12?l=fr_FR&l=hy_am /индекс.php/страница/индекс/12?l=ht_ht&l=bn_bd /индекс.php/страница/индекс/12?l=hu_HU&l=hy_am
Могу ли я сказать роботам, чтобы они исключали URL-адреса с тегами, содержащими
?l=
1 answers
Вы можете заблокировать URL-адреса, содержащие ?l=
, от индексирования роботами поисковых систем, используя следующие robots.txt директива:
Disallow: /*?l=
/
указывает корневой каталог, а *
является подстановочным знаком для всего, что не превышает ?l=
, за которым следует что-либо после него.