Имя пользователя:
Пароль:
 

Показать сообщение отдельно

Аватара для YuS_2

Crazy


Contributor


Сообщения: 1235
Благодарности: 518

Профиль | Отправить PM | Цитировать


Цитата Vadikan:
Сервис Instant View тянет страницу с веб-сайта и парсит HTML на основе моего (плюс своего) шаблона. »
Понятно.

Тогда почему match? Ведь:
Цитата Vadikan:
Задача
Вырезать <p> и </p> в таких конструкциях как выше, т.е. получить заменой »
то есть для задачи требуется @replace

Цитата Vadikan:
Не знаю, но будем считать, что возможно (span и т.д.). »
Тогда с этим сложнее, потому как регулярками парсить конструкции html со вложенными элементами сложно, а иногда просто невозможно, особенно если структура заранее неизвестна.

Цитата Vadikan:
Регексп PowerShell не прокатывает, либо я не знаю, как правильно написать регексп для их синтаксиса. Ориентируясь на примеры в мануале »
А вот это странно... у них в мануале идет отсыл на регэкспы PCRE, у powershell хоть регулярки из .net, но они вполне совместимые PCRE...
И это:
Цитата Vadikan:
REGEXP_ERROR: regexp pattern is empty »
строго говоря, неправда.

Вот это:
Цитата Vadikan:
@match("<p>\s*(<img [^>]*>)\s*</p>"): //p »
соответствует их требованиям из мануала...
Правда, eсть подозрение, что область поиска сводится не ко всей dom-структуре, а ограничивается конкретным элементом, описанным в xpath. Поэтому, необходимо расширить область поиска, т.е. указать надо не сам удаляемый элемент <p>, а родительский.
Можно попробовать это проверить так:
Код: Выделить весь код
@match("<p>\s*(<img [^>]*>)\s*</p>", 0, "ims"): //div
а потом уже использовать @replace

-------
scio me nihil scire. Ѫ


Отправлено: 08:37, 08-02-2019 | #4