Как Google распознает дату публикации публикации


Когда я что-то ищу в Google, я иногда вижу дату публикации поста/статьи внизу. Я также искал свою собственную статью, которая есть у меня на моем сайте на Wordpress, и Google также распознает дату ее публикации.

Когда я открываю исходный код своего веб-сайта, я не вижу никаких специальных тегов или чего-либо, указывающего дату публикации. Он написан только в обычном div, без каких-либо специальных меток, которые сообщали бы SE, что это публикация дата (у меня также могут быть любые другие даты других вещей на странице).

Итак, жестко ли в Google указано точное место даты публикации Wordpress в дереве DOM, или я что-то упустил?

Я создаю новый веб-сайт со своей собственной CMS и пытаюсь выяснить, как реализовать распознавание даты публикации.

Author: Can Poyrazoğlu, 2011-08-18

6 answers

Вы должны пройти через xml-карту сайта или версию RSS-канала, чтобы индексировать свои опубликованные данные через основные поисковые системы, такие как Google, Yahoo и MSN. Создайте XML-карту сайта для вашего сайта и отправьте ее в web master tools для индексирования.

 4
Author: eThan Hunt, 2011-08-18 13:19:24

У меня просто возникла проблема с тем, что все мои основные страницы были показаны как обновленные более 4 лет назад, хотя Google знает, что это неправда, потому что страницы были проиндексированы так долго и существенно меняются из месяца в месяц. После того, как я был действительно озадачен, затем действительно раздражен, затем снова озадачен, я, наконец, нашел проблему. Наши юридические условия обслуживались в скрытом div с надписью "Последнее обновление: 30 октября 2007 года", и div загружался почти на все наши страницы. (Потому что он появляется при регистрации) Я удалил его, и теперь я предполагаю, что дата либо исчезнет, либо будет исправлена на что-то более разумное.

Поучительная история и еще одно доказательство того, что они проверяют семантику сайта больше, чем технические детали или собственную историю индексирования.

 7
Author: mmdanziger, 2012-05-08 11:13:42

Я очень сомневаюсь, что дата публикации сообщения или статьи основана на записи <lastmod> в XML-карте сайта (как предлагали другие) или на последнем измененном заголовке HTTP, если на то пошло. Карта сайта XML является только рекомендательной, а не авторитетной. Дата последнего изменения документа, вероятно, не совпадает с датой (первоначальной) публикации статьи. И, как я уже упоминал в своем комментарии вверху страницы, дата последнего изменения документа, вероятно, более важна для кэширования и возможно определение скорости обхода. Последний измененный HTTP-заголовок динамически создаваемых страниц часто очень близок к фактической дате/времени (как и в блогах WordPress).

С другой стороны, канал RSS/Atom содержит этот конкретный фрагмент информации. И действительно, на сайтах Wordpress, которые не включают дату публикации в контент, дата публикации по-прежнему отображается в результатах поиска Google. И, насколько я могу судить, это совпадает с датой в RSS Корм.

ПРАВКА №1: Однако RSS-канал не обязательно содержит все страницы. В большинстве случаев он должен содержать только последние или самые последние обновленные страницы. Но нет никаких причин, по которым Google должен забыть то, что он уже прочитал, и если содержимое этой страницы не изменилось, то и дата последнего изменения не должна изменяться.

Если нет RSS-канала, я думаю, что Google достаточно умен, чтобы анализировать содержимое страницы. Особенно, если даты помечены "семантически" с помощью микроформатов. Вполне возможно, что Google увидит следующую дату публикации в качестве официальной даты публикации статьи, в которой она содержится:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google, безусловно, читает микроформаты - hCard, hReview и т.д.

Просто чтобы добавить, я не думаю, что Google указал бы дату публикации, если бы не смог найти что-то авторитетное, что могло бы это предложить. Он не собирается выводить "дату публикации" на спекулятивные данные, поскольку неправильная "дата публикации" никому не нужна, и Google получит за это много палок!

И просто для протокола (если @Tom предполагает иное:) Я думаю, что в сообщениях/статьях должна быть видна дата публикации. Многие этого не делают, и это может расстраивать читателя, особенно когда вы исследуете технологические проблемы, и вы обнаруживаете, что, прочитав половину статьи, она устарела!

ПРАВКА №2: С тех пор я испытал аналогичное раздражение , которое @mmdanziger подробно описывает в своем ответе. На одном из моих старых сайтов у меня есть текст формы "Последнее обновление сайта 17 июня 2012 года" (не помечено каким-либо особым образом) вверху каждой страницы (написано на странице с помощью JavaScript!!). Эта та же самая дата была выбрана Google и теперь отображается рядом с несколькими (но не всеми) страницами, которые отображаются в поисковой выдаче - это, безусловно, не дата публикации страницы. Казалось бы, Google - это просто удалите страницу для строки вида "последнее обновление (строка даты )" (обработав JavaScript!!). На этом конкретном сайте нет RSS-канала. На сайте действительно есть Sitemap.xml файл, но даты разные.

Я также заметил подобное поведение на других сайтах.

 7
Author: MrWhite, 2012-07-15 00:39:10

Я думаю, что Google использует карту сайта и RSS-канал для распознавания даты публикации.. вы можете внедрить эту функцию в свою CMS, создав xml-карту сайта в соответствии со стандартами .

<lastmod>2011-08-18</lastmod>
 5
Author: Vamsi Krishna B, 2011-08-18 10:58:29

По словам Джона Мюллера в Google:

Мы используем различные сигналы, чтобы определить, какую дату показывать, или имеет ли смысл показывать ее вообще; она не привязана к одному конкретному атрибуту.

Джон Мюллер - Твиттер

Однако я нахожу наиболее вероятным, что Google ищет даты на веб-страницах в следующих местах:

  • На видном месте на странице, используя машинное обучение
  • Schema.org структурированные данные, особенно если данные также можно найти на видном месте на странице
 2
Author: Maximillian Laumeister, 2020-06-16 10:32:57

Я думаю, что он разумно ищет любые даты на странице, и когда он уверен, что это соответствующая дата, он использует ее.

Иногда это немного сложно, так как я думаю, что это может негативно сказаться на способности к кликам в поисковой выдаче, я полагаю, что это может оказать временное положительное влияние, если это недавняя статья/сообщение, но я совершенно уверен, что мои сайты были бы лучше без этого (хотя поисковикам Google может быть не лучше без этого!)

Нет никаких возможностей управлять им с помощью Google, только своими собственными методами. Вы можете либо:

  • Замените даты динамически генерируемыми изображениями в попытке помешать Google обнаружить их, но это может привести к другим проблемам, таким как визуальное выравнивание/согласованное отображение шрифта/доступность и т.д.
  • Удалите все даты со страниц (это опять же может быть неприятно для посетителей/пользователей, когда они хотят узнать возраст источника, если у вас есть соответствующая информация).

По этим причинам я бы просто проигнорировал это.

 1
Author: Tom Gullen, 2011-08-18 11:19:25