Показать полную графическую версию : wkhtmltopdf сохранение только нескольких страниц HTML to PDF
AlexeyRS
04-08-2016, 17:03
Попробовав несколько инструментов сохранения страничек в PDF остановился на wkhtmltopdf. Единственный момент, есть допустим статья, материал на 2 страницы, а ниже комментарии на страниц 50.
Задача сохранить статью только 2 страницы самого материала без этих комментариев.
Как-то средствами параметров wkhtmltopdf возможно ли указать сколько страниц прочитать?
Yewgeniy
04-08-2016, 18:16
Я бы следом применил pdftk и выкинул ненужные страницы.
Yewgeniy, проблема именно в определении места ненужности. а не в инструментах.
Yewgeniy
04-08-2016, 18:56
Проблема в отсутствии у wkhtmltopdf параметров, позволяющих ограничить кол-во страниц.
А оно нам заранее известно? Нет.
Yewgeniy
04-08-2016, 20:29
Можно найти место, посчитать страницу и использовать в качестве параметра pdftk.
AlexeyRS
04-08-2016, 20:50
Да наверное тогда и в самом деле только вариант вручную удалять страницы с готового PDF.
Просто там есть очень интересная функция TOCок (table of content) wkhtmltopdf --dump-outline toc.xml http://tst.html tst.pdf
которая в тех случаях, которые я пробовал очень четко разграничивает содержимое документа, т.е. отдельно статья, отдельно какая-то другая информация, отдельно комментарии. Думал может с ее помощью как-то можно
Ну, так я про то ж, что главное — определить место.
Я так понимаю, что быстрее и проще будет «ручками» отрезать лишнее, например, те же комментарии (скажем, в Scrapbook), сохранить полученное локально, а затем уже «натравить» на него утилиту. Если задача глобальнее — загрузить сайт и сделать с него книгу — то какой-нибудь паук WinHTTrack с последующей обработкой от мусора скриптами WSH, PoSH, Python.
Yewgeniy
04-08-2016, 21:33
вручную удалять страницы с готового PDF. »
Да почему вручную-то???
pdftk тем и хорош, что работает с командной строкой и параметрами.
Может проще определить какое-нибудь стоп-слово?
Например на Хабре это Автор, Схожие публикации. И только после этого развернутые комментарии.
Если перечень ресурсов ограничен, то под них тоже можно поискать некоторые слова, отделяющие основную часть от обсуждения.
AlexeyRS
04-08-2016, 22:22
Iska Там больше отдельные страницы. Просто задался вопросом сохранения страниц без потери "вида отображения" и одинакового вида на любом ПК/устройстве на котором будут открывать, и пришел к PDF сохранению. Сохранение страниц полностью браузером, что-то вообще коверкает их, и еще сильнее если в другом броузере открыть.
Yewgeniy Ну в любом случае готовые PDFки в полуручном режиме. Зашел на сайт pdftk (pdflabs.com) функции доступны только в платной ПРО версии. Пока попробовал Adobe Acrobat DC и Foxit PhantomPDF нормально удаляют лишние страницы, но конечно вариант такая махина для таких целей :)
Yewgeniy
04-08-2016, 22:43
pdftk - это даже слишком сложно.
Пару лет назад у меня случилась проблема, что ну никак не мог печатать на принтере, подключенном к другому компу в сети. А надо было. Дело было давно, многое забыл. Решил так. На том компе расшарил папку и поставил командный файл, запускающийся при загрузке компа. Командный файл циклически проверял содержание расшаренной папки и командной строкой отправлял обнаруженный файл на печать, после чего удалял файл. Т.е. мне достаточно было кинуть файл в расшаренну папку и идти за распечатанным доком.
Ключевой момент в том, что использовалась командная строка то ли акробата ридера толи чегото похожего, не помню. Т.е. я кидал пдф файл, а не какой нить другой. Так что можно копать в этом направлении. Определить начало комментов и отправить на печать (в пдф) только нужные страницы. И разумеется не вручную. Собственно, тут сойдёт наверно даже какнибуть привычный пдф-принтер.
AlexeyRS, в таком случае проще будет завести себе какой-нибудь виртуальный PDF-принтер и печатать на него выбранные страницы или выделенный фрагмент:
http://i.imgur.com/xVGz4uj.png
Из спортивного интереса pdf принтер пропустил. Разные принтеры немного по разному ведут себя на сложной верстке Word страниц.
Из программ "резки" pdf предложу pdfsam (https://sourceforge.net/projects/pdfsam/)
Проект развивается. Несколько лет назад это была довольно страшная (но надо отдать должная рабочая программа), теперь вон бантиков прикрутили, сайт сделали.
AlexeyRS
07-08-2016, 22:31
Ок. Огромное спасибо всем за наводки и советы. буду пробовать :)
© OSzone.net 2001-2012
vBulletin v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.