screen-scraping

Как поисковые системы находят релевантный контент?

Как Google находит релевантный контент при анализе веб-страниц? Допустим, например, Google использует собственную биб ... ен отправить ссылку, затем я иду и просматриваю эту страницу, находя следующую информацию. Изображение (если применимо)

Библиотека селектора PHP CSS? [закрыто]

Существует ли класс/библиотека PHP, которая позволила бы мне запрашивать документ XHTML с помощью селекторов CSS? Мне н ... гко доступны, если бы я мог каким-то образом использовать селекторы CSS (jQuery испортил меня!). Есть какие-нибудь идеи?

файл получить содержимое() дайте мне 403 запрещенных

У меня есть партнер, который создал для меня некоторый контент. Я могу получить доступ к странице с помощью своего брау ... ntext = stream_context_create($opts); //Get header content $_header = file_get_contents($partner_url,false, $context);

Очистка данных со всех asp.net страницы с реализованной разбиением на страницы AJAX

Я хочу удалить веб-страницу, содержащую список пользователей с адресами, электронной почтой и т.д. веб-страница содержи ... ю, как asp справляется разбиение на страницы и запрос AJAX и что такое __EVENTARGUMENT, __VIEWSTATE и __EVENTVALIDATION

Интерпретация JavaScript в PHP

Я хотел бы иметь возможность запускать JavaScript и получать результаты с помощью PHP, и мне интересно, есть ли библиот ... HP. [1] [1] http://blogs.forbes.com/velocity/2010/06/25/google-isnt-just-reading-your-links-its-now-running-your-code/

CasperJS передает данные обратно в PHP

CasperJS вызывается PHP с помощью команды exec(). После того, как CasperJS выполнит свою работу, такую как извлечение частей веб-страницы, как можно вернуть полученные данные обратно в PHP?

модульные тесты для очистки экрана?

Я новичок в модульном тестировании, поэтому я хотел бы узнать мнение тех, кто немного более осведомлен. Мне нужно в б ... ий? Означает ли это провести линию на песке и полностью исключить этот вид тестирования из модульных тестов? Спасибо

CasperJS/PhantomJS намного медленнее, чем Curl

Когда я попробовал curl www.yelp.com, это заняло 1,1 секунды. Однако получение страницы с помощью CasperJS занимает бол ... casper.start(url); casper.then(function() { console.log( this.getHTML() ); this.exit(); }); casper.run();

Извлечение определенных данных с веб-страницы с помощью PHP [дубликат]

Возможный Дубликат: Очистка HTML в Php Я хотел бы знать, есть ли какой-либо способ получить с веб-страницы опр ... ать это с помощью PHP, после использования file_get_contents чтобы поместить страницу в переменную? Заранее спасибо:)

Регулярное выражение: Поиск URL-адресов в CSS фонового изображения, возникли проблемы

Вот мой код регулярного выражения: preg_match_all('/background[-image]*:[\s]*url\(["|\']+(.*)["|\']+\)/', $css, $matc ... егулярных выражений, поэтому мне интересно, как я могу сказать, чтобы он пропускал что-либо после двоеточия и перед URL.

Получить только соответствующую часть веб-сайта

Как Плагин веб-клипера Evernote или Объявляет плагин только соответствующую статью/публикацию/часть содержимого стра ... о-нибудь предложить решение для получения основной статьи/публикации/контента, пожалуйста, с помощью Javascript или PHP?

Как реализовать веб-скребок в PHP? [закрыто]

Какие встроенные функции PHP полезны для веб-очистки? Каковы некоторые хорошие ресурсы (веб- или печатные) для ускорения веб-очистки с помощью PHP?

Очистка библиотеки для PHP-phpQuery?

Я ищу библиотеку PHP, которая позволяет мне удалять веб-страницы и заботиться обо всех файлах cookie и предварительном ... пользователя и пароль), отправляя все по ПОЧТЕ. PS: Будьте уверены, это не будет использоваться для рассылки спама.

Доменный код PHP: как извлекать не только текст, но и HTML-теги

Я пытаюсь создать скрипт, который очищает веб-сайт, чтобы получать последние обновления новостей. К сожалению, я столкн ... какой-либо сторонней библиотеке, но, очевидно, любой ответ наиболее ценен, библиотека это или нет. Заранее благодарю.

Можно ли запустить jQuery на стороне сервера?

Я работаю над очисткой веб-страниц, реализована разбиение на страницы AJAX, так как веб-сайт разработан в asp, т.Е. стр ... Node.js может использоваться для запуска javascript на стороне сервера, но не знаю, как использовать его с Apache и PHP

Очистите с помощью подстановочных знаков и php

Эй, ребята, мне трудно представить и представить, как очистить эту страницу: http://www.morewords.com/ends-with/aw для ... деле у меня не так много опыта работы с завитком) используйте какой-нибудь сложный поиск и замените регулярным выражением.

время ожидания операции php CURL истекло через 120308 миллисекунд с получением X из -1 байта

Я иногда сталкиваюсь с этой ошибкой (см. Заголовок) в своем скрипте очистки. X - это целое число байтов >0, реальное ... curl фактически успешно подключается и получает некоторые данные, поэтому время ожидания при ошибке всегда ~=120000 мс.

Как очистить данные о ценах от kayak.com?

Похоже, они покончили со своим API. У них есть гораздо менее мощный инструмент, называемый Поисковый шлюз. Как бы я ... каждый час дня. Я мог бы просто проверить каяк вручную, но я хотел бы иметь возможность автоматизировать этот процесс.

Логический код на PHP/Laravel с системой очередей заданий

Я создаю веб-скребок с использованием Laravel 3 и у меня есть система очередей resque. Вопрос: Где я должен разместит ... Controller extends Base_Controller { public function test_scrape($url) { Scraper::do_scrape($url); } }

Может ли HTTP-запрос на основе cURL полностью имитировать запрос на основе браузера?

Это вопрос из двух частей. Q1: Может ли запрос на основе cURL на 100% имитировать запрос на основе браузера? Q2: Е ... т как запрос от браузер. Поэтому было любопытно узнать, является ли это ботом, а не пользователем. Заранее благодарю