Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » AutoIt » [решено] Как получить только исхоный код страницы по HTTP (без картинок и тд - только текст)?

Ответить
Настройки темы
[решено] Как получить только исхоный код страницы по HTTP (без картинок и тд - только текст)?

Старожил


Сообщения: 186
Благодарности: 4

Профиль | Отправить PM | Цитировать


Добрый день! Нужно получить один только HTML веб страницы (именно HTTP запросом, потому что это гораздо быстрее, чем грузить через браузер, а потом пользоваться _IEDocReadHTML). Пробую, пишу код:

читать дальше »
Код: Выделить весь код
$sURL="http://rambler.ru/"
$sPath=@DesktopDir & "\HTML.html"
FileOpen($sPath,2)
FileWrite($sPath,_GetHTML($URL))
ShellExecuteWait($sPath)

Func _GetHTML($sURL,$sSendParam="")
if StringLeft($sURL,7)<>"http://" then $sURL="http://" & $sURL
Local $oHTTP = ObjCreate("WinHttp.WinHttpRequest.5.1")
$oHTTP.Open("GET",$sURL,false)
$oHTTP.SetRequestHeader("Content-Type", "text/html")
$oHTTP.SetRequestHeader("Accept", "application/x-ms-application, application/x-ms-xbap, application/vnd.ms-xpsdocument, application/xaml+xml")
$oHTTP.SetRequestHeader("User-Agent", "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; WebMoney Advisor; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; OperaEmbedded Web Browser; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; AskTB5.3)")
$oHTTP.SetRequestHeader("Cache-Control", "no-cache")
$oHTTP.SetRequestHeader("Accept-Language", "ru")
$oHTTP.Send($sSendParam)
Return $oHTTP.ResponseText
EndFunc


Когда полученный код открывается через браузер, почему-то отображаются и картинки. Что изменить, чтобы картинок не было (ведь они получается скачиваются при запросе GET?) ? Я пробовал удалять все, что содержало Image из заголовка "Accept" - не помогло.

Отправлено: 23:44, 09-01-2010

 

Аватара для Creat0R

Must AutoIt


Сообщения: 3054
Благодарности: 1009

Профиль | Сайт | Отправить PM | Цитировать


Цитата evg64:
Что изменить, чтобы картинок не было »
Нужно парсировать результат.

Цитата evg64:
ведь они получается скачиваются при запросе GET? »
Нет, это просто ссылки, они подгружаются с сети.

-------
“Сделай так просто, как возможно, но не проще этого.”... “Ты никогда не решишь проблему, если будешь думать так же, как те, кто её создал.”

Альберт Эйнштейн

P.S «Не оказываю техподдержку через ПМ/ICQ, и по email - для этого есть форум. ©»

http://creator-lab.ucoz.ru/Images/Icons/autoit_icon.png Русское сообщество AutoIt | http://creator-lab.ucoz.ru/Images/Ic...eator_icon.png CreatoR's Lab | http://creator-lab.ucoz.ru/Images/Icons/oac_icon.png Opera AC Community

Это сообщение посчитали полезным следующие участники:

Отправлено: 23:49, 09-01-2010 | #2



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Старожил


Сообщения: 186
Благодарности: 4

Профиль | Отправить PM | Цитировать


Цитата Creat0R:
Нет, это просто ссылки, они подгружаются с сети. »
То есть если не открывать файл с помощью ShellExecute, то реально будет скачиваться один только текст и абсолютно больше никакого трафика?
P.S. Следовательно, отправляя один только запрос GET в таком виде никакой вирус не сможет попасть на комп, какой бы левый сайт ни был, правильно?

Отправлено: 00:35, 10-01-2010 | #3


Аватара для Creat0R

Must AutoIt


Сообщения: 3054
Благодарности: 1009

Профиль | Сайт | Отправить PM | Цитировать


Цитата evg64:
То есть если не открывать файл с помощью ShellExecute, то реально будет скачиваться один только текст и абсолютно больше никакого трафика? »
Верно, только исходный код страницы.

Цитата evg64:
отправляя один только запрос GET в таком виде никакой вирус не сможет попасть на комп, какой бы левый сайт ни был, правильно? »
Думаю это зависит от того куда посылается запрос, но по идее чтобы вирусу пробраться, нужно запустить вредноностный код на стороне клиента (юзера), а при GET-запросе вроде ничего не выполняется на стороне клиента.

-------
“Сделай так просто, как возможно, но не проще этого.”... “Ты никогда не решишь проблему, если будешь думать так же, как те, кто её создал.”

Альберт Эйнштейн

P.S «Не оказываю техподдержку через ПМ/ICQ, и по email - для этого есть форум. ©»

http://creator-lab.ucoz.ru/Images/Icons/autoit_icon.png Русское сообщество AutoIt | http://creator-lab.ucoz.ru/Images/Ic...eator_icon.png CreatoR's Lab | http://creator-lab.ucoz.ru/Images/Icons/oac_icon.png Opera AC Community


Отправлено: 01:17, 10-01-2010 | #4



Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » AutoIt » [решено] Как получить только исхоный код страницы по HTTP (без картинок и тд - только текст)?

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
Это что за сайт? Прям OSZone.net но только без форума xD K.A.V. Флейм 10 04-11-2009 00:44
[решено] Как настроить установку без участия пользователей только для одной группы компов? mr.R WSUS 9 25-08-2009 20:51
MSFT SQL Server - MS SQL Express 2008 - на сервере к которому есть доступ только к http t0lkman Программирование и базы данных 1 12-12-2008 22:01
[решено] Перезагрузка только Windows (без прохождения P.O.S.T.). Как? Coutty Microsoft Windows 2000/XP 2 27-12-2006 20:33
Доступ - Доступ только с разрешенных IP и только к разрешенным IP Russo Microsoft Windows 2000/XP 4 03-11-2006 09:45




 
Переход