Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Компьютеры + Интернет » Вебмастеру » Скрипт для скачивания сайта

Ответить
Настройки темы
Скрипт для скачивания сайта

Аватара для Plutonium 239

Radio-active


Сообщения: 1406
Благодарности: 44


Конфигурация

Профиль | Отправить PM | Цитировать


Всем здравствуйте!
Мне нужно сделать PHP скрипт который бы заходил на сайт вводил логин и пароль, используя форму для поиска осуществлял поиск и скачивал бы результаты поиска к себе.
Вот только даже не знаю с чего начать. Как сделать что-то вроде имитации захода пользователя на сайт?

Отправлено: 23:39, 15-10-2006

 

Пользователь


Сообщения: 67
Благодарности: 5

Профиль | Сайт | Отправить PM | Цитировать


PHP код: Выделить весь код

$handle fopen ("http://www..........""r");

while (!
feof ($handle)) {
    
$buffer fgets($handle4096);
    echo 
$buffer# вот тут вместо вывода надо смотреть, что выводится и искать, что надо
}
fclose ($handle); 


Отправлено: 01:16, 16-10-2006 | #2



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Аватара для vadimiron

Ветеран


Сообщения: 1864
Благодарности: 120

Профиль | Отправить PM | Цитировать


Plutonium 239
Надо симулировать браузер HTTP запросами.
Смотрим в сторону curl функций. Либо пишем свои классы для составления и отправки ХТТП запросов

-------
Fortes fortuna adiuvat


Отправлено: 01:36, 16-10-2006 | #3


Аватара для Plutonium 239

Radio-active


Сообщения: 1406
Благодарности: 44

Профиль | Отправить PM | Цитировать


Цитата:
Смотрим в сторону curl функций.
Я посмотрел, только ничего не понял может есть какое-нибудь подробное руководство с примерами?
curl как я понял может использовать кукис для авторизации на сайте, вот это было бы как раз то что нужно.
А еще нужно вытащить из полученного HTML документа информацию, HTML вида
HTML код: Выделить весь код
<tr><td class="date">14.10.06 16.00</td></tr> <tr><td class="title">Заголовок</td></tr> <tr><td class="text">Текст.....</td></tr> и т.д.

Из него нужно получить массив типа: дата, заголовок, текст и т.д.
Пробовал регулярным выражением
HTML код: Выделить весь код
<td class="date">[[:print:]]</td>

но это неработатет, и другие тоже не работают они хоть русские буквы вообще понимают?
И еще, на сайте кодировка UTF-8 а у меня какая-то другая, windows по всей видимости, и когда php скрипт этот файл открывае то там белеберда всякая, что делать?

Отправлено: 13:48, 16-10-2006 | #4


Ветеран


Сообщения: 1404
Благодарности: 135

Профиль | Отправить PM | Цитировать


Цитата:
А еще нужно вытащить из полученного HTML документа информацию, HTML вида
<tr><td class="date">14.10.06 16.00</td></tr>
<tr><td class="title">Заголовок</td></tr>
<tr><td class="text">Текст.....</td></tr>
Регулярные выражения:
/class=\"date\">(.*?)<\/td>/
/class=\"title\">(.*?)<\/td>/
/class=\"text\">(.*?)<\/td>/


-------
Ehhh.. what's up, doc?..


Отправлено: 16:29, 16-10-2006 | #5


Аватара для Plutonium 239

Radio-active


Сообщения: 1406
Благодарности: 44

Профиль | Отправить PM | Цитировать


Вот такой код
PHP код: Выделить весь код

$url "search.phtml?s_ty=All&s_i=F&s_l=M&s_f=18&s_t=40&s_p=checked&s_c=3159_4528_4549&s_w=checked"

$ch curl_init(); 
curl_setopt($chCURLOPT_URL$url); 
curl_setopt($chCURLOPT_FAILONERROR1); 
curl_setopt($chCURLOPT_FOLLOWLOCATION1);
curl_setopt($chCURLOPT_RETURNTRANSFER,1);
curl_setopt($chCURLOPT_TIMEOUT20);
curl_setopt($chCURLOPT_COOKIE$cookies); 
$result curl_exec($ch);
curl_close($ch);
echo 
$result

В результате браузер выдает белиберду, в адресной строке вместо значков & какие-то amp;
что это за amp такие, откуда они беруться и как от них избавиться?

Отправлено: 19:37, 18-10-2006 | #6


Ветеран


Сообщения: 1404
Благодарности: 135

Профиль | Отправить PM | Цитировать


Цитата:
В результате браузер выдает белиберду, в адресной строке вместо значков & какие-то amp;
что это за amp такие, откуда они беруться и как от них избавиться?

мой интерпретатор PHP выдает ошибку, когда в начале стоит вот такое определение переменной
Код: Выделить весь код
$url = "search.phtml?s_ty=All&s_i=F&s_l=M&s_f=18&s_t=40&s_p=checked&s_c=3159_4528_4549&s_w=checked"
Закройте строку точкой с запятой.
В остальном этот код работает вроде бы так как и должен.

Перед неалфавитными символами рекомендую использовать слэш. Слэш означает что этот символ будет пониматься так как он написан: \& \? \" \' \. \/ \\

Отправлено: 04:49, 19-10-2006 | #7


Аватара для Plutonium 239

Radio-active


Сообщения: 1406
Благодарности: 44

Профиль | Отправить PM | Цитировать


Все нормально страничка скачатвается, разбирается на ссылки, но вот тольок я сталкнулся с такой проблемой, когда перехожу по ссылке просят ввсести код с картинки вместо нужной странички.
Есть ли какой-нибудь способ это обойти?

Отправлено: 09:44, 21-10-2006 | #8


Аватара для vadimiron

Ветеран


Сообщения: 1864
Благодарности: 120

Профиль | Отправить PM | Цитировать


Plutonium 239
Нет, почти нет. Если программисты там сами не допустили какой нибудь оплошности в виде передачи этого номера по GET, что сегодня уже почти не происходит.
А парсинг подобной картинки и попытки вычитать оттуда номер не увенчаются успехом, или будет длиться очень долго и с неточностьями

-------
Fortes fortuna adiuvat


Отправлено: 14:33, 21-10-2006 | #9


Аватара для Plutonium 239

Radio-active


Сообщения: 1406
Благодарности: 44

Профиль | Отправить PM | Цитировать


А вот еще такой вопрос, можно ли сделать так, чтобы скрипт скаченные странички архивировал и отправлял на заданный email? Это вообще возможно, если да, то как?
И еще вопрос, чтобы заменить в скаченном файле все ссылки с http://..../файл.htm на файл.htm достаточно просто натравить на него регулярные выражения?
И кстати, где можно почитать про PCRE регулярные выражения в PHP мануал я уже прочитал, хотелось бы более развернуто и доступно

Отправлено: 17:04, 23-10-2006 | #10



Компьютерный форум OSzone.net » Компьютеры + Интернет » Вебмастеру » Скрипт для скачивания сайта

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
Интернет - Программа для скачивания сайта Evgesha_572 Программное обеспечение Windows 7 17-02-2012 10:12
нужен скрипт для добавления сайта в избранное и сделать его стартовой страницей Denis Shutka Вебмастеру 2 30-01-2005 11:03
Есть каккая-нить прога для скачивания всех рисунков с сайта? Guest Хочу все знать 9 27-05-2004 09:09
Ссылки на файлы для скачивания pauluss Вебмастеру 3 06-03-2004 18:25
Программа для скачивания сайтов Asiona Хочу все знать 3 29-11-2003 04:18




 
Переход