Как узнать, когда URL-адрес был впервые проиндексирован Google?
Как узнать, когда конкретный URL-адрес был впервые проиндексирован Google? Я бы предпочел решение, которое работает даже для URL-адресов конкурентов, которые мне не принадлежат.
3 answers
Чтобы узнать возраст URL-адреса, вы можете перейти по этой ссылке, заменив www.example.com
на нужный URL-адрес:
https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl
Например, вот результат Google для мета-сайта переполнения стека:
В противном случае Машина обратной связи также является хорошим решением, но, по моему опыту, менее точным.
Zistoloen нашел способ, чтобы Google отображал дату, когда он впервые проиндексировал содержимое страницы. Я также добавляю это к своему ответу, потому что думаю, что смогу объяснить это более ясно.
- Найдите в Google что-нибудь, что в результате откроет нужную вам страницу
- Используйте "Инструменты поиска"
- Выберите "Пользовательский диапазон..." из выпадающего списка "В любое время"
- Укажите большой диапазон дат, например от 1/1/1900 до 1/1/2020
Затем Google покажет дата обнаружения содержимого, которое находится на странице в результатах поиска.
Если страница обновляется новым контентом, Google также обновляет эту дату. Таким образом, это скорее дата "первого индексирования этого контента", а не дата "первого индексирования этого URL".
Кэш Google для страницы показывает, когда страница была проиндексирована в последний раз. Вы можете увидеть, что домашняя страница Stack Exchange была проиндексирована в последний раз сегодня:
Другой вариант используя машину обратной связи Интернет-архива. Это показывает вам, как выглядела страница в прошлом. Вы можете узнать, когда эти страницы были впервые опубликованы. И Google, и Интернет-архив сканируют и используют страницу вскоре после ее первой публикации.
Возможно, не существует какого-либо способа узнать, когда произвольная веб-страница была впервые проиндексирована Google - конечно, я не знаю никакого способа сделать это. Вполне возможно, что Google просто не хранит эту информацию, поскольку нет реальной причины, по которой им это было бы необходимо. Кроме того, даже если они хранят эту информацию, у них действительно нет особых причин предоставлять ее в свободный доступ третьим лицам.
(Если это ваша собственная страница, и у вас есть доступ к вашему старому веб-серверу журналы, это просто - просто найдите в журналах первое посещение этой страницы с помощью Googlebot. Но в противном случае может быть невозможно сказать наверняка.)
В любом случае метод, описанный Зистолоеном и Стивеном Остермиллером в их ответах, не обычно показывает дату, когда конкретный URL-адрес был впервые проиндексирован Google. Скорее, он показывает дату, когда Google считает, что содержимое по URL-адресу было опубликовано или обновлено в последний раз, и часто основывается на более или менее надежные попытки "обнюхать" датируются самим содержимым страницы.
В этом видео Мэтт Каттс из Google кратко рассказывает о том, как выбираются эти даты. Для удобства я переписал соответствующий фрагмент видео (примерно с 2:09 до 2:22) ниже:
"...часто вы будете видеть дату, как мы ее определяем, или когда мы впервые ее увидели, всякий раз, когда мы просматривали эту страницу, или если мы сможем найти ее где-нибудь на странице, и мы сможем извлечь эту дату, вы увидите, что прямо в самом начале фрагмента".
Для таких страниц, как сообщения в блоге, вики-страницы или вопросы по обмену стеками, где программное обеспечение, на котором запущен сайт, автоматически сообщает точную дату создания/изменения на самой странице, дата, указанная Google, скорее всего, совпадает с ней. Однако для других типов страниц анализатору даты Google приходится работать усерднее, и он не всегда делает это правильно (что бы ни означало "правильно" в данном контексте).
В частности, эти даты в основном бесполезны для определения того, как давно страница была проиндексирована, по двум причинам:
-
Если страница была недавно изменена, и дата изменения отображается на странице на видном месте, Google может выбрать ее как "дату" страницы, даже если изменение было совершенно тривиальным.
Например, эта довольно старая вики-страница (которая archive.org впервые проиндексированный в 2003 году) в настоящее время помечен Google как дата с 10 ноября 2014 года - дата последнего редактирования, как показано в нижней части страницы. Перемена, произошедшая в тот день? Просто удалите одну ссылку в нижней части страницы.
-
И наоборот, Google, похоже, с радостью примет очень старые "даты публикации", если найдет их на странице - даже те, которые предшествуют запуску Всемирной паутины.
Например, эта страница о старом конкурсе по программированию датирована Google 15 сентября 1986 года - на самом деле дата события описана на странице. Аналогично, эта страница, документирующая студенческую забастовку 1970 года , датирована Google 10 мая 1970 года (дата одного из отсканированных документов на странице), и, что еще более абсурдно, эта страница руководства по Linux датирована Google 4 ноября 1989 года (случайная дата примера, используемая на странице).
Вы можете найти еще много таких примеров, используя пользовательский поиск по диапазону дат, описанный Стивеном и Зистолуном, но установив верхний предел диапазона, скажем, до августа 6, 1991.