screen-scraping
Как поисковые системы находят релевантный контент?
Как Google находит релевантный контент при анализе веб-страниц?
Допустим, например, Google использует собственную биб ... ен отправить ссылку, затем я иду и просматриваю эту страницу, находя следующую информацию.
Изображение (если применимо)
Библиотека селектора PHP CSS? [закрыто]
Существует ли класс/библиотека PHP, которая позволила бы мне запрашивать документ XHTML с помощью селекторов CSS? Мне н ... гко доступны, если бы я мог каким-то образом использовать селекторы CSS (jQuery испортил меня!). Есть какие-нибудь идеи?
файл получить содержимое() дайте мне 403 запрещенных
У меня есть партнер, который создал для меня некоторый контент.
Я могу получить доступ к странице с помощью своего брау ... ntext = stream_context_create($opts);
//Get header content
$_header = file_get_contents($partner_url,false, $context);
Очистка данных со всех asp.net страницы с реализованной разбиением на страницы AJAX
Я хочу удалить веб-страницу, содержащую список пользователей с адресами, электронной почтой и т.д. веб-страница содержи ... ю, как asp справляется разбиение на страницы и запрос AJAX и что такое __EVENTARGUMENT, __VIEWSTATE и __EVENTVALIDATION
Интерпретация JavaScript в PHP
Я хотел бы иметь возможность запускать JavaScript и получать результаты с помощью PHP, и мне интересно, есть ли библиот ... HP. [1]
[1] http://blogs.forbes.com/velocity/2010/06/25/google-isnt-just-reading-your-links-its-now-running-your-code/
CasperJS передает данные обратно в PHP
CasperJS вызывается PHP с помощью команды exec(). После того, как CasperJS выполнит свою работу, такую как извлечение частей веб-страницы, как можно вернуть полученные данные обратно в PHP?
модульные тесты для очистки экрана?
Я новичок в модульном тестировании, поэтому я хотел бы узнать мнение тех, кто немного более осведомлен.
Мне нужно в б ... ий? Означает ли это провести линию на песке и полностью исключить этот вид тестирования из модульных тестов?
Спасибо
CasperJS/PhantomJS намного медленнее, чем Curl
Когда я попробовал curl www.yelp.com, это заняло 1,1 секунды. Однако получение страницы с помощью CasperJS занимает бол ...
casper.start(url);
casper.then(function() {
console.log( this.getHTML() );
this.exit();
});
casper.run();
Извлечение определенных данных с веб-страницы с помощью PHP [дубликат]
Возможный Дубликат: Очистка HTML в Php
Я хотел бы знать, есть ли какой-либо способ получить с веб-страницы опр ... ать это с помощью PHP, после использования file_get_contents чтобы поместить страницу в переменную?
Заранее спасибо:)
Регулярное выражение: Поиск URL-адресов в CSS фонового изображения, возникли проблемы
Вот мой код регулярного выражения:
preg_match_all('/background[-image]*:[\s]*url\(["|\']+(.*)["|\']+\)/', $css, $matc ... егулярных выражений, поэтому мне интересно, как я могу сказать, чтобы он пропускал что-либо после двоеточия и перед URL.
Получить только соответствующую часть веб-сайта
Как Плагин веб-клипера Evernote или Объявляет плагин только соответствующую статью/публикацию/часть содержимого стра ... о-нибудь предложить решение для получения основной статьи/публикации/контента, пожалуйста, с помощью Javascript или PHP?
Как реализовать веб-скребок в PHP? [закрыто]
Какие встроенные функции PHP полезны для веб-очистки? Каковы некоторые хорошие ресурсы (веб- или печатные) для ускорения веб-очистки с помощью PHP?
Очистка библиотеки для PHP-phpQuery?
Я ищу библиотеку PHP, которая позволяет мне удалять веб-страницы и заботиться обо всех файлах cookie и предварительном ... пользователя и пароль), отправляя все по ПОЧТЕ.
PS: Будьте уверены, это не будет использоваться для рассылки спама.
Доменный код PHP: как извлекать не только текст, но и HTML-теги
Я пытаюсь создать скрипт, который очищает веб-сайт, чтобы получать последние обновления новостей.
К сожалению, я столкн ... какой-либо сторонней библиотеке, но, очевидно, любой ответ наиболее ценен, библиотека это или нет.
Заранее благодарю.
Можно ли запустить jQuery на стороне сервера?
Я работаю над очисткой веб-страниц, реализована разбиение на страницы AJAX, так как веб-сайт разработан в asp, т.Е. стр ... Node.js может использоваться для запуска javascript на стороне сервера, но не знаю, как использовать его с Apache и PHP
Очистите с помощью подстановочных знаков и php
Эй, ребята, мне трудно представить и представить, как очистить эту страницу: http://www.morewords.com/ends-with/aw для ... деле у меня не так много опыта работы с завитком)
используйте какой-нибудь сложный поиск и замените регулярным выражением.
время ожидания операции php CURL истекло через 120308 миллисекунд с получением X из -1 байта
Я иногда сталкиваюсь с этой ошибкой (см. Заголовок) в своем скрипте очистки.
X - это целое число байтов >0, реальное ... curl фактически успешно подключается и получает некоторые данные, поэтому время ожидания при ошибке всегда ~=120000 мс.
Как очистить данные о ценах от kayak.com?
Похоже, они покончили со своим API. У них есть гораздо менее мощный инструмент, называемый Поисковый шлюз. Как бы я ... каждый час дня. Я мог бы просто проверить каяк вручную, но я хотел бы иметь возможность автоматизировать этот процесс.
Логический код на PHP/Laravel с системой очередей заданий
Я создаю веб-скребок с использованием Laravel 3 и у меня есть система очередей resque.
Вопрос: Где я должен разместит ... Controller extends Base_Controller {
public function test_scrape($url) {
Scraper::do_scrape($url);
}
}
Может ли HTTP-запрос на основе cURL полностью имитировать запрос на основе браузера?
Это вопрос из двух частей.
Q1: Может ли запрос на основе cURL на 100% имитировать запрос на основе браузера?
Q2: Е ... т как запрос от браузер. Поэтому было любопытно узнать, является ли это ботом, а не пользователем.
Заранее благодарю