Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  

Название темы: Парсинг GPO из HTML в БД
Показать сообщение отдельно

Старожил


Сообщения: 412
Благодарности: 19

Профиль | Отправить PM | Цитировать


Цитата DJ Mogarych:
https://pandoc.org/ »

Прикольная штука. Попробовал, т.к. делал на Винде, то у меня было так:
Код: Выделить весь код
C:\Users\vasya\Desktop\pandoc.exe C:\Users\vasya\Desktop\123.html -f html -t json -o C:\Users\vasya\Desktop\123.json


И вот, что получилоь:
1. Pandoc перевел все в одну строку и там куча массивов внутри массива. Это усложняет дальше обрабатывать этот файл. По крайней мере для меня. В принципе я делал тоже самое на сайте https://alldocs.app/convert-html-to-pandoc-json когда искал решение.

2. Pandoc добавляет лишнее. Например, из этого "Время ожидания в секундах перед включением заставки" получилось это

Код: Выделить весь код
[{"t":"Str","c":"Время"},{"t":"Space"},{"t":"Str","c":"ожидания"},{"t":"Space"},{"t":"Str","c":"в"},{"t":"Space"},{"t":"Str","c":"секундах"},{"t":"Space"},{"t":"Str","c":"перед"},{"t":"Space"},{"t":"Str","c":"включением"},{"t":"Space"},{"t":"Str","c":"заставки"}]}]]]]
Нужно опять писать какие-то регулярки, чтобы дальше это собрать в одно предложение без лишней воды.

Вобщем, не совсем то, что хочется, но буду попробовать дальше раскручивать Pandoc и искать другие решения. Спасибо.

Отправлено: 07:40, 02-11-2023 | #3

Название темы: Парсинг GPO из HTML в БД