Как мне получить список всех проиндексированных ссылок?
Я ищу способ взять все ссылки, которые я проиндексировал в Google, и экспортировать их в CSV-файл. В последнее время у меня было намного больше страниц, проиндексированных Google, чем у меня на самом деле, и я хочу найти, откуда берутся все эти страницы, без необходимости просматривать каждую страницу результатов поиска.
3 answers
К сожалению, нет возможности получить полный список всех проиндексированных страниц в Google. Даже решение milo5b даст вам не более 1000 URL-адресов.
Похоже, у вас возникли проблемы с дублированием контента. В Инструментах для веб-мастеров проверьте работоспособность > Состояние индекса, и он покажет вам общее количество страниц, проиндексированных с течением времени. Если график в какой-то момент совершит большой скачок, вы, возможно, сможете определить, спровоцировало ли скачок конкретное изменение на вашем сайте.
Вы также можете попробовать используя Инструменты веб-мастера Bing. У них есть обозреватель индексов, который может помочь вам найти URL-адреса. Пауки поисковых систем очень похожи, поэтому, если Google нашел эти ссылки, Bing, вероятно, тоже нашел.
Я думал, что у Bing есть способ экспортировать большую часть своих данных, но я не могу найти его при беглом взгляде. Хотя есть API, так что вы, вероятно, могли бы использовать его для извлечения всего.
В итоге я перешел к проблемной подпапке, выполнив поиск site:domain.com/foo/bar /но в своем поиске я наткнулся на метод получения результатов поиска в файле excel.
Откройте электронную таблицу Google Docs и используйте следующую формулу:
=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")
Он получит только первые 100 результатов, но вы можете использовать его снова, чтобы получить следующие 100. Просто измените начальную переменную:
=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")
Это даст только до 1000 результатов, как упоминалось ранее недовольным, но формулу можно изменить, чтобы предоставить ссылки из определенных подкаталогов:
=импортxml("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1 "; "//цитировать")
Вы можете написать скрипт, который анализирует SERP Google (например, PHP + Curl) и сохраняет каждую ссылку в CSV-файле. Будьте осторожны, чтобы ваш скрипт вел себя как человек, потому что Google может заблокировать ваш IP-адрес в результатах поиска на несколько часов, если вы злоупотребите этим.