Как мне получить список всех проиндексированных ссылок?


Я ищу способ взять все ссылки, которые я проиндексировал в Google, и экспортировать их в CSV-файл. В последнее время у меня было намного больше страниц, проиндексированных Google, чем у меня на самом деле, и я хочу найти, откуда берутся все эти страницы, без необходимости просматривать каждую страницу результатов поиска.

Author: Lee, 2012-08-28

3 answers

К сожалению, нет возможности получить полный список всех проиндексированных страниц в Google. Даже решение milo5b даст вам не более 1000 URL-адресов.

Похоже, у вас возникли проблемы с дублированием контента. В Инструментах для веб-мастеров проверьте работоспособность > Состояние индекса, и он покажет вам общее количество страниц, проиндексированных с течением времени. Если график в какой-то момент совершит большой скачок, вы, возможно, сможете определить, спровоцировало ли скачок конкретное изменение на вашем сайте.

Вы также можете попробовать используя Инструменты веб-мастера Bing. У них есть обозреватель индексов, который может помочь вам найти URL-адреса. Пауки поисковых систем очень похожи, поэтому, если Google нашел эти ссылки, Bing, вероятно, тоже нашел.

Я думал, что у Bing есть способ экспортировать большую часть своих данных, но я не могу найти его при беглом взгляде. Хотя есть API, так что вы, вероятно, могли бы использовать его для извлечения всего.

 6
Author: DisgruntledGoat, 2012-08-29 13:39:29

В итоге я перешел к проблемной подпапке, выполнив поиск site:domain.com/foo/bar /но в своем поиске я наткнулся на метод получения результатов поиска в файле excel.

Откройте электронную таблицу Google Docs и используйте следующую формулу:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Он получит только первые 100 результатов, но вы можете использовать его снова, чтобы получить следующие 100. Просто измените начальную переменную:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Это даст только до 1000 результатов, как упоминалось ранее недовольным, но формулу можно изменить, чтобы предоставить ссылки из определенных подкаталогов:

=импортxml("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1 "; "//цитировать")

 8
Author: Lee, 2012-08-29 16:26:28

Вы можете написать скрипт, который анализирует SERP Google (например, PHP + Curl) и сохраняет каждую ссылку в CSV-файле. Будьте осторожны, чтобы ваш скрипт вел себя как человек, потому что Google может заблокировать ваш IP-адрес в результатах поиска на несколько часов, если вы злоупотребите этим.

 2
Author: milo5b, 2012-08-29 09:10:49