Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Скриптовые языки администрирования Windows (http://forum.oszone.net/forumdisplay.php?f=102)
-   -   Парсинг HTML из URL (http://forum.oszone.net/showthread.php?t=335695)

Darkar25 11-07-2018 20:37 2821565

Парсинг HTML из URL
 
хочу получить HTML код страницы по URL после того как она загрузилась(прошли все php скрипты и всё такое) в файл...не важно стандартными средствами CMD или доп по...главное чтобы по не занимало сотни файлов...1 или 3 нормально будет...но думаю такое врядли существует чтоб прям одним файлом...по крайней мере я такого не нашел...

Iska 11-07-2018 20:46 2821567

Цитата:

Цитата Darkar25
по URL »

Например?

Цитата:

Цитата Darkar25
прошли все php скрипты »

С каких пор php скрипты начали выполняться на клиенте?

И определитесь:
Цитата:

Цитата Darkar25
Парсинг HTML »

или просто:
Цитата:

Цитата Darkar25
получить HTML код страницы »


Darkar25 12-07-2018 08:04 2821606

Цитата:

Цитата Iska
Например? »

например https://github.com/npocmaka/batch.sc...ntDownload.bat
тут батник для скачивания HTML кода страницы но в моём случае он не работает...
Цитата:

Цитата Iska
С каких пор php скрипты начали выполняться на клиенте? »

а где я сказал что они на клиенте выполняются?
Цитата:

Цитата Iska
И определитесь: »

Цитата:

Цитата Iska
или просто: »

разве это не одно и то-же?

Iska 12-07-2018 08:24 2821608

Цитата:

Цитата Darkar25

Я имел в виду адрес страницы, которую нужно — что — загрузить/парсить.

Цитата:

Цитата Darkar25
тут батник для скачивания HTML кода страницы но в моём случае он не работает... »

От пакетного файла там только огрызок. В реальности там банальный JScript .NET. С большим успехом можно использовать PowerShell, базирующийся на том же .Net Framework.

Цитата:

Цитата Darkar25
а где я сказал что они на клиенте выполняются? »

Ну, Вы это так специально оговорили, как будто бы от клиента зависит, будут ли они выполняться, али нет.


Цитата:

Цитата Darkar25
разве это не одно и то-же? »

Нет, не одно и то же.


В Вашем случае для загрузки страницы следует использовать либо wget.exe, либо curl.exe, либо PowerShell.

Darkar25 12-07-2018 09:39 2821617

Цитата:

Цитата Iska
Я имел в виду адрес страницы, которую нужно — что — загрузить/парсить. »

вообще парсить хочу свой личный сайт...на нём происходит сверка вводимых данных и данных на сервере...потом если все норм то на страницу выводит Correct,..иначе Wrong...вот пример...
onedev.tk/check.php?key=file&param1=1&param2=2
Цитата:

Цитата Iska
Ну, Вы это так специально оговорили, как будто бы от клиента зависит, будут ли они выполняться, али нет. »

нуу...)))
Цитата:

Цитата Iska
В Вашем случае для загрузки страницы следует использовать либо wget.exe, либо curl.exe»

я там посмотрел wget и curl для видны...там столько файлов шо капец...ну а мне нужно чтобы это не занимало слишком много места и файлов...
Цитата:

Цитата Iska
либо PowerShell. »

а как это можно сделать через шелл?

Iska 13-07-2018 16:18 2821637

Цитата:

Цитата Darkar25
я там посмотрел wget и curl для видны...там столько файлов шо капец.. »

Сколько? Для wget я насчитал пять:
Код:

libintl3.dll
libiconv2.dll
libeay32.dll
libssl32.dll
wget.exe

общим объёмом в три мегабайта.


Цитата:

Цитата Darkar25
а как это можно сделать через шелл? »

Invoke-WebRequest

x0r 13-07-2018 17:36 2821647

Да они обадва (и wget и curl )всего-то, по ~4MB весят. Просто для виндоюзерофф понятие "зависимости" в описании, вганяет в ступор мгновенно Хотя все библы описаны в редмну, а так же легчайше ищуццо чеерз F3 в TC .
Darkar25, думаю, тебе нужен именно curl.

а еще , есть такая прога Aria2. но лучше curl

Iska 13-07-2018 18:23 2821656

Цитата:

Цитата x0r
Просто для виндоюзерофф понятие "зависимости" в описании, вганяет в ступор мгновенно »

Меня не вгоняет :).

Цитата:

Цитата x0r
а так же легчайше ищуццо чеерз F3 в TC . »

Dependency Walker.

greg zakharov 13-07-2018 18:30 2821657

curl, начиная с апрельского обновления Win10 является штатной утилитой, так что всем обладателям данной системы не нужно заморачиваться. А вообще, статически слинкованные wget и curl не нуждаются в сторонних файлах, - это к слову.
Помимо прочего есть Cygwin (чтобы не заморачиваться с зависимостями).

x0r 13-07-2018 19:16 2821666

Iska, меня тоже нет. Долго пытался стать красноглазиком. честно пытался, не сложилось. Как та пчела из "басни о пчёлах" Мандевилля xD - сознательно выбрал "винду", отвергнув канонiчный Линух(кой-чего почерпнув оттудава. Конечно консоль, тулзы всякие ).

Цитата:

Цитата greg zakharov
татически слинкованные wget и curl не нуждаются в сторонних файлах, - это к слову. »

ну раз к слову... то скажу, что по личному опыту, эту хрень не надо юзать. Я дважды качал статически слинкованную версию wget (та что одним файлом) и оба раза оно глючило. По параметрам вылетало, а параметров не так уж и много, всего десяток примерно - и wget вылетал. Curl не пробовал даже, нафиг. ~14MB в одной папке держу, все библы для wget + curl + grep + скрипты = можно качать почти отовсюду, почти что угодно(это то, что с бравзером переносным таскаю).

14.5MB список библ, стопудова есть лишние, но лень уже вычислять. пох.

Код:

cygffi-6.dll
cyggcc_s-1.dll
cyggcrypt-11.dll
cyggmp-10.dll
cyggnutls-26.dll
cyggnutls-28.dll
cyggnutlsxx-28.dll
cyggpg-error-0.dll
cyghogweed-2.dll
cygiconv-2.dll
cygidn-11.dll
cygintl-8.dll
cygnettle-4.dll
cygp11-kit-0.dll
cygpcre-1.dll
cygpsl-5.dll
cygtasn1-3.dll
cygtasn1-6.dll
cygunistring-2.dll
cyguuid-1.dll
cygwin1.dll
cygz.dll
aria2c.exe
curl.exe
grep.exe
wget.exe


greg zakharov 14-07-2018 23:28 2821804

x0r, не знаю бредите ли вы или нет, но имелось в виду не всякое барахло, собранное абы-кабы абы кем-то, а собираемое самостоятельно из исходников. А то, о чем пишите вы, с различными закладками внутри (оно здравомыслящему человеку надо?)

x0r 15-07-2018 09:38 2821818

greg zakharov, какие закладки??! бредишь кокраз ты. Суть в том, что переносимое должно быть переносимым, - статич. слинковынный wget вылетает часто-густо, даже на одной ОС, не говоря уже про др. ОС(windows) куда втыкал флешку. Версия с библами никогда не глючила и заводилась всегда.

Я давно уже понял, что понятие "здравомыслие", сильно разниццо в моём понимании и понимании всяких "икспердов и проКрамистов". Они может и пишут программы, "создают интерфейсы".... знают Цэ - но своими программами не пользуются, удобство использования им неведомо, т.к. больше трех программ и четырех вкладок в бравзере они не запускают.
Так же и с юзерами. Ни один юзер(ламеров и обезьян не берем) на Виндовс, не станет собирать программу из сорцов. это то, от чего убережен юзер Виндовс в отличие от Линуха. И это хорошо.

Ежли ты такой профи, то собери wget в одном файле и дай напощупать. А мы поглядим, попробуем, поганяем на разных ОС(у мя он, wget, прикручен к портабле-бравзеру и качает линки, файлы, видео и проч.). Никакой другой нужды, собирать программу статич. слинкованную нет, если только ты экономишь место на флешке\диске. Но сегодня уже и эта причина не особо актуальна, объёмы носителей позволяют таскать доп. 10МБ библиотек.

mwz 15-07-2018 23:07 2821920

Цитата:

Цитата x0r
бредишь кокраз »

Пошто человека "кокразом" обозвали??

greg zakharov 16-07-2018 17:11 2822039

Цитата:

Цитата x0r
Я давно уже понял, что понятие "здравомыслие", сильно разниццо в моём понимании и понимании всяких "икспердов и проКрамистов". Они может и пишут программы, "создают интерфейсы".... знают Цэ - но своими программами не пользуются, удобство использования им неведомо, т.к. больше трех программ и четырех вкладок в бравзере они не запускают.

Еще ни разу статически слинкованный wget никуда не выпадал, единственная проблема с которой приходилось иметь дело непосредственно сама компиляция, которая не так уж проста в случае с MS. Но достаточно один раз пройтись напильником, написать командный сценарий для автоматизации процесса и сама сборка займет не так и много времени. То же в случае тестов. И curl. У последнего, правда в работе есть кое-какие галюны, но Даниел Штенберг и сотоварищи пусть и медленно, но все же исправляют их.
Цитата:

Цитата x0r
Ежли ты такой профи, то собери wget в одном файле и дай напощупать.

Да, я профи. Желаете "пощупать" статически слинкованный wget без галюнов - 100$ и он ваш, а брать на "слабо", дескать, "за деньги и я могу" или просто брызгать слюной, может каждый. Почему же тогда предлагаю за деньги? Нужно же на что-то долечить ожог 20% тела. Надумаете, обращайтесь.


Время: 03:58.

Время: 03:58.
© OSzone.net 2001-