Robots.txt чтобы заблокировать параметр вместо каталога


Насколько я понимаю, URL-адреса имеют формат example.com/something/somethingelse .

Насколько я понимаю, параметры следуют за URL-адресом с вопросительным знаком пример.com?l=fr_FR

На моем веб-сайте CMS есть языковые переводы, в которых используются параметры. Приведенный выше пример относится к версии моего сайта на французском языке.

Я хотел бы заблокировать все неанглийские переводы из индекса Google с помощью robots.txt .

В инструменте заблокированные URL-адреса в GWT Я попытался проверить это:

# robots.txt generated at http://www.mcanerin.com
User-agent: *
Disallow: 
Disallow: /cgi-bin/
Disallow: ?l=

Против следующего URL-адреса, который появился как один из дубликатов заголовков страниц в улучшениях HTML.

https://example.com/reports/view/884?l=eu

Я впервые играю с этим инструментом в GWT, поэтому я не уверен, правильно ли я его использую.

Результаты теста для Googlebot говорят

Разрешено строкой 3: Запретить:

Я хотел, чтобы код не позволял Google индексировать любые URL-адреса, содержащие следующую строку

?l=

Вот несколько примеров URL-адресов, которые я хотел бы заблокировать из индекса. Эти URL-адреса генерируют повторяющиеся заголовки в соответствии с GWT. /отчеты/просмотр/884?l=км /отчеты/просмотр/884?l=ne_np /отчеты/просмотр/884?l=te /index.php/страница/индекс/12?l=fr_FR&l=hy_am /индекс.php/страница/индекс/12?l=ht_ht&l=bn_bd /индекс.php/страница/индекс/12?l=hu_HU&l=hy_am

Могу ли я сказать роботам, чтобы они исключали URL-адреса с тегами, содержащими

?l=

Author: Doug Fir, 2013-09-28

1 answers

Вы можете заблокировать URL-адреса, содержащие ?l=, от индексирования роботами поисковых систем, используя следующие robots.txt директива:

Disallow: /*?l=

/ указывает корневой каталог, а * является подстановочным знаком для всего, что не превышает ?l=, за которым следует что-либо после него.

 4
Author: dan, 2013-09-28 22:17:33