web-crawler

как обнаружить поисковых ботов с помощью php?

Как можно обнаружить ботов поисковой системы с помощью php?

Как мне сделать простой искатель на PHP?

У меня есть веб-страница с кучей ссылок. Я хочу написать сценарий, который бы сбрасывал все данные, содержащиеся в этих ... ьный файл. Кто-нибудь делал это с помощью PHP? В качестве ответа было бы достаточно общих рекомендаций и рекомендаций.

Как идентифицировать веб-искателя?

Как я могу отфильтровать обращения от веб-краулеров и т. Д. Удары, которые не являются человеческими.. Я использую max ... запросить город с IP.. Это не совсем дешево, если мне придется платить за ВСЕ хиты, включая веб-краулеры, роботов и т.д.

как извлечь ссылки и заголовки из a.html страница?

Для моего веб-сайта я хотел бы добавить новую функциональность. Я хотел бы, чтобы пользователь мог загрузить файл рез ... я меня, и он не говорит об этом.. Я действительно не возражаю, если он использует jquery или php Большое вам спасибо

Извлечение данных сайта с помощью веб-обходчика выводит ошибку из-за неправильного соответствия индекса массива

Я пытался извлечь текст таблицы сайта вместе с его ссылкой из данной таблицы на (которая находится в site1.com ) на мою ... из этого кода:: получить приведенный выше текст за секунду со ссылкой, связанной с ним. Любая помощь приветствуется..

Сканируйте определенные страницы и данные и сделайте их доступными для поиска [закрыто]

Важное примечание: приведенные ниже вопросы не предназначены для нарушения каких-ЛИБО авторских прав на данные. Все про ... текста. Я думаю, это действительно показывает, что я уже трачу некоторое время на то, чтобы самому во всем разобраться.

Искатель Facebook сильно бьет по моему серверу и игнорирует директивы. Многократный доступ к одним и тем же ресурсам

Искатель Facebook поражает мои серверы несколько раз в секунду, и, похоже, он игнорирует как заголовок Expires, так и с ... nt="940"/> <meta property="og:image:height" content="491"/> <meta property="og:ttl" content="2419200" />

Могу ли я использовать WGET для создания карты сайта с учетом его URL-адреса?

Мне нужен скрипт, который может создавать веб-сайт и возвращать список всех просмотренных страниц в обычном текстовом и ... ты сайта. Могу ли я использовать WGET для создания карты сайта? Или есть PHP-скрипт, который может сделать то же самое?

Исключение InvalidArgumentException: Текущий список узлов пуст. PHP-Паук (Symfony DomCrawler)

Я использую PHP-Spider для обхода веб-сайта, но когда он не может найти класс., он выдает ошибку: Исключение InvalidArg ... а на других - class.listfooter. Есть ли способ проверить, существует ли он? Я пробовал isset &!пустой, но безуспешно

PHP- невозможно изменить максимальное время выполнения в xampp

Я перепробовал все, чтобы изменить max_execution_time скрипта php-обходчика, чтобы он мог работать бесконечное количест ... pe/London'); /*code which scrapes websites*/ ?> Phpinfo() max_execution_time 0 0 max_input_time -1 -1

Какие библиотеки веб-обходчиков PHP доступны?

Я ищу несколько надежных, хорошо документированных сценариев веб-сканеров PHP. Возможно, PHP-порт проекта Java - http://wiki.apache.org/nutch/NutchTutorial Я ищу как бесплатные, так и несвободные версии.

Исключите ботов и пауков из счетчика просмотров в PHP

Я создал довольно простой менеджер рекламы для веб-сайта на PHP. Я говорю "базовый", потому что он не такой сложный, ... к достичь своей цели? Пожалуйста, не говорите использовать другую рекламную систему, которой нет в карточках, спасибо

Как ограничить одновременные подключения, используемые cURL

Я сделал простой веб-искатель с использованием PHP (и cURL). Он анализирует грубо 60 000 html-страниц и восстанавливает ... о? Или, может быть, мне следует переписать все это на другом языке? Спасибо, мы будем признательны за любую помощь!

Как избежать круговых ловушек ботов в phpcrawl?

Как я могу избежать попадания в ловушки круговых ссылок при использовании PHP-обхода?

Подсчет элементов li из html-файла с использованием php

У меня есть HTML-файл, который содержит много-много тегов "li", без тегов головы и тела и всего остального. Я хочу посч ... t="_blank" title="جوکوویچ: منتظر رویارویی با بردیچ هستم">جوکوویچ: منتظر رویارویی با بردیچ هستم</a> </li>

Обходимый AJAX с экранированным фрагментом в htaccess

Здравствуйте, коллеги-разработчики! Мы почти закончили разработку первого этапа нашего веб-приложения ajax. В нашем п ... сообщите ==================================================== РЕДАКТИРОВАТЬ... некоторые исправления в тексте и логике

как определить, посещает ли поисковая система мой сайт? как phpBB

Есть ли какой-либо способ обнаружить поисковые системы или поисковые роботы на моем сайте. я видел в phpBB у администра ... gle или аналогичное приложение. мне нужно реализовать это для моего сайта блога, я думаю, есть какой-то способ узнать?

Использование Indextank для поиска по сайту

Я ищу бесплатные простые в реализации и без рекламы альтернативы Google CSE. Я нашел indextank, который выглядит дост ... б-страницы в этом домене. Конечным результатом является то, что я могу разместить поиск по сайту на своем веб-сайте.

php-файл был выполнен искателем alexa и вызвал проблемы!

Я написал сценарий, который будет использоваться для автоматического выпуска новых страниц в определенное время. Он про ... скрипт ни на одной из моих страниц. Интересно, как он может найти файлы, которые присутствуют на моем сервере..????

обход html-страницы с помощью php?

На этом веб-сайте перечислены более 250 курсов в одном списке. Я хочу получить название каждого курса и вставить его в ... a studeies</td> … Есть ли способ сделать это в PHP, вместо того, чтобы у меня был безумный кошмар ввода данных?