Войти

Показать полную графическую версию : PHP парсер(грабер) погоды с подстановкой User-Agent


leonid.poydolov@fb
05-11-2016, 11:55
Сейчас сайт погоды определяет браузер, после чего дает загружать страницу..
Подскажите куда вставить код1, в код2 парсера, чтобы при парсинге он определялся как браузер?

код1

$out = "GET $path HTTP/1.0\r\n";
$out .= "Accept: image/gif, application/xhtml+xml, */*\r\n";
$out .= "Accept-Language: ru\r\n";
$out .= "Host: $host\r\n";
//Имитируем браузер Opera Mini:
$out .= "User-Agent: Opera/8.01 (J2ME/MIDP; ".
"Opera Mini/2.0.4509/1716; ru; U; ssr)\r\n";
$out .= "Cache-Control: no-cache\r\n"; //Не кэшировать
$out .= "Connection: Close\r\n\r\n";

код2
<?php
$url = 'http://pogoda.yandex.ru/moscow/details'; //загрузит
$beginBlock = '<div class=\"b-navigation-city\">';
$endBlock = '<div class=\"b-print b-noprint\">';
$cachefile = dirname(__FILE__) . '/cache/weather.php'; // файл кеша
$cache_time_config = 7200; //время актуальности кеша 2 часа
//Проверяем наличие кеша
if (file_exists($cachefile))
{
$cachetime = filemtime($cachefile); // время создание кеша
if ((time() - $cachetime) < $cache_time_config) //если кеш не устарел - берем значение из него
{
$cache_used = true;
include $cachefile;
}
}
if (!$cache_used) // если не использовали кеш - заправшиваем страницу с сервера погоды
{
$pattern = '%' . $beginBlock . '(.*)' . $endBlock . '%isU';
$fp = @fopen($url, 'r');
if (!$fp)
exit();
$data = '';
while (!feof($fp))
{
$data .= fgets($fp, 8192);
}
fclose($fp);
$data = str_replace("yandex.st/weather/1.2.83/i", "localhost", $data);
if (!preg_match($pattern, $data, $matches)) // страница не доступна
{
if (file_exists($cachefile)) // берем из устаревшего кеша данные
{
include $cachefile;
}
else // кеш отсутствует
{
echo 'Сервер погоды временно недоступен';
}
}
else // сохраняем в кеш новое значение
{
file_put_contents($cachefile, '<?php $matches=' . var_export($matches, 1) . '; ?>');
}
}
echo isset($matches[1]) ? $matches[1] : '';

Habetdin
05-11-2016, 19:55
leonid.poydolov@fb, первая переменная выдрана из кода, использующего, скорее всего, функцию fsockopen, поэтому просто так её во второй код с функцией fopen не вставить. Вместо этого необходимо переделать первый кусок кода в такой:
// ...

$host = 'pogoda.yandex.ru';
$opts = array(
'http' => array(
'method' => "GET",
'protocol_version' => 1.0,
'header' => "Accept: image/gif, application/xhtml+xml, */*\r\n"
. "Accept-Language: ru\r\n"
. "Host: $host\r\n"
. "User-Agent: Opera/8.01 (J2ME/MIDP; " // Имитируем браузер Opera Mini:
. "Opera Mini/2.0.4509/1716; ru; U; ssr)\r\n"
. "Cache-Control: no-cache\r\n" // Не кэшировать
. "Connection: Close\r\n\r\n";
)
);

$context = stream_context_create (http://php.net/stream-context-create)($opts);

// далее оригинальный код...
$fp = @fopen($url, 'r', false, $context);
// ...

...и вставить перед вызовом fopen во второй код и добавив в него $context.

leonid.poydolov@fb
07-11-2016, 07:33
Ошибка - пишет Сервер погоды временно недоступен

- $context - ни куда не надо включать " $fp = @fopen($url, 'r', false, $context); " - и все равно сервер не доступен

<?php
$url = 'http://pogoda.yandex.ru/moscow/details'; //загрузит
$beginBlock = '<div class=\"b-navigation-city\">';
$endBlock = '<div class=\"b-print b-noprint\">';
$cachefile = dirname(__FILE__) . '/cache/weather.php'; // файл кеша
$cache_time_config = 7200; //время актуальности кеша 2 часа
//Проверяем наличие кеша
if (file_exists($cachefile))
{
$cachetime = filemtime($cachefile); // время создание кеша
if ((time() - $cachetime) < $cache_time_config) //если кеш не устарел - берем значение из него
{
$cache_used = true;
include $cachefile;
}
}
if (!$cache_used) // если не использовали кеш - заправшиваем страницу с сервера погоды
{
$pattern = '%' . $beginBlock . '(.*)' . $endBlock . '%isU';

$host = 'pogoda.yandex.ru';
$opts = array(
'http' => array(
'method' => "GET",
'protocol_version' => 1.0,
'header' => "Accept: image/gif, application/xhtml+xml, */*\r\n"
. "Accept-Language: ru\r\n"
. "Host: $host\r\n"
. "User-Agent: Opera/8.01 (J2ME/MIDP; " // Имитируем браузер Opera Mini:
. "Opera Mini/2.0.4509/1716; ru; U; ssr)\r\n"
. "Cache-Control: no-cache\r\n" // Не кэшировать
. "Connection: Close\r\n\r\n",
)
);

$context = stream_context_create($opts);

$fp = @fopen($url, 'r');
if (!$fp)
exit();
$data = '';
while (!feof($fp))
{
$data .= fgets($fp, 8192);
}
fclose($fp);
$data = str_replace("yandex.st/weather/1.2.83/i", "localhost", $data);
if (!preg_match($pattern, $data, $matches)) // страница не доступна
{
if (file_exists($cachefile)) // берем из устаревшего кеша данные
{
include $cachefile;
}
else // кеш отсутствует
{
echo 'Сервер погоды временно недоступен';
}
}
else // сохраняем в кеш новое значение
{
file_put_contents($cachefile, '<?php $matches=' . var_export($matches, 1) . '; ?>');
}
}
echo isset($matches[1]) ? $matches[1] : '';

Habetdin
07-11-2016, 18:22
leonid.poydolov@fb, а это уже проблема того, что второй код устарел на текущий момент.
Если вывести полученные данные, добавив в конец:
echo '<pre>' . htmlspecialchars($data) . '</pre>';
Можно увидеть, что сервер еще как доступен и выдал нам много данных.
Вот только в нём из-за обновленной верстки уже нет того, что проверяется по $pattern в следующем условии:
if (!preg_match($pattern, $data, $matches)) // страница не доступна
Поэтому скрипт и выводит 'Сервер погоды временно недоступен'.
P.S.: так ли необходимо получать данные о погоде граббером? У Яндекс.Погоды есть неплохой информер (https://yandex.ru/pogoda/moscow/informer).

leonid.poydolov@fb
09-11-2016, 06:04
так ли необходимо получать данные о погоде граббером? »

- это как образец.., делается для экономии трафика и тех у кого нет доступа в интернет из локальной сети...(через прокси по поиску в сети у них видишь запросы - погода и т.п.)

- еще сколько сотрудников столько сайтов погоды, каждый норовит на своем смотреть....gismeteo, rp5, 7meteo и т.п... типа яшка врет с погодой...

проверяется по $pattern в следующем условии »

это в курсе, что начальный и конечный тег вырезки изменился на..
$beginBlock = '<div class="content">';
$endBlock = '<div class="footer footer_providers clearfix" role="contentinfo"> ';

в настройка php.ini
в параметре выставил
user_agent Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 YaBrowser/16.9.1.1192 Yowser/2.5 Safari/537.36

все равно так же...




© OSzone.net 2001-2012