Использование hreflang и canonical на многоязычных страницах с непереведенным контентом
Проблема
Я просматривал вопросы на этом форуме (в основном старые), но нашел противоречивую информацию.
У меня есть двуязычный веб-сайт (тайский и английский) с некоторыми страницами, содержащими непереведенный контент (скажем, на тайском языке). Единственное, что отличается, - это шаблон и имя автора статьи (на соответствующих языках)... что-то вроде https://www.example.com/th/untranslated-content/
и https://www.example.com/en/untranslated-content/
.
hreflang
В этой статье Google говорится, что я должны были hreflang
указывать друг на друга.
Некоторые примеры сценариев, в которых рекомендуется указывать альтернативные страницы:
- Если вы сохраняете основное содержимое на одном языке и переводите только шаблон, например навигацию и нижний колонтитул. Страницы, которые содержат пользовательский контент, например форумы, обычно делают это.
Так что в тайской версии у меня было бы
<link rel="alternate" hreflang="en" href="https://www.example.com/en/untranslated-content/" />
И в английской версии я бы иметь
<link rel="alternate" hreflang="th" href="https://www.example.com/th/untranslated-content/" />
canonical
Это все хорошо. Но тогда в этой статье говорится, что две страницы считаются дублирующими:
Разные языковые версии одной страницы считаются дубликатами только в том случае, если основное содержимое на том же языке (то есть, если переведен только верхний и нижний колонтитулы и другой некритичный текст, но основной текст остается тем же, то страницы считаются дубликатами).
Я так понимаю, что это подразумевает, что я должен иметь канонический URL-адрес в английской версии, указывающий на тайскую версию (и, тайская версия, указывающая на саму себя).
Тайская версия:
<link rel="canonical" href="https://www.example.com/th/untranslated-content/" />
<link rel="alternate" hreflang="en" href="https://www.example.com/en/untranslated-content/" />
Версия на английском языке:
<link rel="canonical" href="https://www.example.com/th/untranslated-content/" />
<link rel="alternate" hreflang="th" href="https://www.example.com/th/untranslated-content/" />
Взаимодействие двух
Но затем в этой статье , которую я довольно часто цитировал, говорится, что у Google возникнут проблемы с английской версией, поскольку canonical
говорит Google не индексировать ее, но hreflang
говорит Google индексировать ее... хотя и canonical
указывает на другую страницу, и hreflang
является допустимым в настройках мобильных устройств.
Нормально ли это делать?
1 answers
Если вы не переводите содержимое, нецелесообразно индексировать обе копии. У английских пользователей не будет хорошего пользовательского опыта, если они нажмут на Google и столкнутся с контентом, который они не могут прочитать.
Перевод только шаблонного текста ваших страниц при сохранении основной части вашего контента на одном языке (как это часто бывает на страницах с пользовательским контентом) может создать плохие впечатления для пользователей, если то же самое контент появляется несколько раз в результатах поиска на разных стандартных языках.
Использовать robots.txt чтобы заблокировать поисковые системы от обхода автоматически переведенных страниц на вашем сайте. Автоматические переводы не всегда имеют смысл и могут рассматриваться как спам. Что еще более важно, плохой или искусственный перевод может повредить восприятию вашего сайта.
Вам следует:
- Используйте
<meta name="robots" content="noindex">
илиrobots.txt
, чтобы предотвратить попадание ваших английских страниц, содержащих тайский контент проиндексированный. - (необязательно) Используйте
<link rel="canonical" href="https://www.example.com/th/untranslated-content/" />
на своих английских страницах с тайским контентом. Однако, поскольку эти страницы частично переведены, Google вряд ли будет соблюдать канонический тег. - Не используйте
hreflang
. Хотя в документации Google дляhreflang
говорится, что вы можете использовать его в случаях, когда переводится только шаблон, я бы не рекомендовал этого делать. Наличие hreflang, указывающего на страницу, которая не должна индексироваться, ничем не поможет и может запутать поисковые системы в некоторых ситуации.