Показать полную графическую версию : как распечатать pdf, djvu без картинок?
Нужно распечатать отсканеную книгу. Там очень много картинок, которые никакой смысловой нагрузки не несут (учебник по англ.языку). И в целом это часто встречаемая проблема. Казалось бы положение безвыходное, но ведь уже 21-ый век, неужели наука до сих пор ничего не придумала?
Morpheus
12-10-2011, 11:42
spyphy, сканировать можно по-разному.
1. Страница книги сканируется в виде одной картинки. Способ менее трудоёмкий, но уже ни текст не отредактировать, ни картинки не вырезать (как картинку вырезать из картинки и кто должен отличить картинки от текста?).
Лечится вторым способом.
2. Страница книги сканируется и распознаётся программами типа FineReader. Тогда на выходе вы получаете редактируемый текст и возможность манипулировать картинками и иными данными.
Вопрос: каким способом отсканирована книга? Есть ли в ваших pdf-ах текстовый слой (проверяется возможностью выделения)?
http://s45.radikal.ru/i107/1110/62/8fb7f56f6274t.jpg (http://radikal.ru/F/s45.radikal.ru/i107/1110/62/8fb7f56f6274.jpg.html)
El Scorpio
13-10-2011, 10:16
Нужно распечатать отсканеную книгу. Там очень много картинок, которые никакой смысловой нагрузки не несут (учебник по англ.языку) »
Там вся страница представляет собой одну картинку (набор точек разного цвета), которую для получения текста (набора символов) нужно обработать программой распознавания текста (FineReader или аналогичной)
Там вся страница представляет собой одну картинку »
это я в курсе.
распознавание и копирование текста - вряд ли лучший способ.
Там некоторые картинки занимают по пол страницы (с 90% заполнением). Неплохо было бы иметь ПО, каторое бы распознавало именно эти картинки и удаляла их хотя бы частично. В крайнем случае сгодился бы ручной инструмент для выделения таких картинок (но только чтобы быстро и удобно было, так как много страниц обрабатывать надо).
может под линуксом какие то утилиты существуют, способные совершать подобную обработку изображений, а там глядишь и автоматизировать можно будет?...
Еще здесь имеется вторая проблема - это когда текст на тёмном фоне. Ксерокс как-то умеет рапознавать это дело и печатает без фона. А вот можно ли так настроить принтер или акробат-ридер, чтобы он автоматически менял контрастность?...
В крайнем случае сгодился бы ручной инструмент для выделения таких картинок »
тот же finereader определяет картинки
FineReader - штука хорошая, но не панацея - после него необходимо вычитывать текст, т.к. распознаётся не всегда верно.
Morpheus
14-10-2011, 11:14
Мне вот интересно, любая тема, если она находится в ХВЗ, должна наполниться флеймом?
Morpheus, где флейм? Вроде нету. Рассуждения, как можно добиться желаемого автором результата.
Morpheus
14-10-2011, 13:59
Iska, пока нету. Но и идей, кроме второй раз предложенного файнридера тоже нету. Слишком много в последнее время развелось пустых и дублирующих сообщений, которые кроме шума в эфире ничего не создают.
придётся значит в Adobe Acrobat Professional в ручную выделять - не панацея но хоть что-то. 21 век блин называется
Grabber2006
16-10-2011, 19:54
Мне всегда казалось, что купить книгу будет дешевле, чем её распечатать.
Конечно не FineReader'ом единым живет человечество (раз (http://en.wikipedia.org/wiki/List_of_optical_character_recognition_software)), но это первое, что приходит в голову.
Завтра постараюсь уточнить еще одно название программы распознавания страниц. Приобрели ген. директору лазерный МФУ от HP, там в комплекте ПО распознавания шло. Вполне успешно распознала тестовую страницу. Насколько сопоставимы продукты по цене/качеству сказать не могу, но как альтернатива мне понравилась.
Вспомнил! READIris (http://www.irislink.com/c2-1684-189/Readiris-12-for-Windows.aspx)
если есть текстовый слой, то можно и так (http://www.youtube.com/watch?v=4lQlxMtAHro)
если нет то можно как то так (http://www.youtube.com/watch?v=mw5HHfGV66k)
Morpheus
22-10-2011, 10:21
если нет то можно как то так »
Гениально! Каждой строчке текста свой лист! :)
Мож тогда графический редактор ещё подключить и собирать из кусочков страничку? :)
Morpheus, с тем же файнридером выйдет не быстрее. :)
или еще так (http://www.youtube.com/watch?v=WoHmSDo8GqI)
А вот так? http://www.pdftoword.com/ (convert all your files free for 14 days)
Затем элементарно убрать картинки. (Правда сам никогда не юзал :)
http://s017.radikal.ru/i437/1110/1a/73c9ec8298aa.jpg (http://www.radikal.ru)
yurfed, юзал, но с djvu не работает.
Morpheus
22-10-2011, 11:10
с тем же файнридером выйдет не быстрее. »
Побыстрее. Можно настроить чтобы только текст вставлялся.
А если потом понадобится размер шрифта увеличить? Засада. Страницы уже собраны.
А вот так? http://www.pdftoword.com/ (convert all your files free for 14 days) »
Дык, это ж очередная поделка для недоразвитых, которые не умеют Ctrl+A, Ctrl+C, Ctrl+V.
Если в PDF нет текстового слоя, а только картинка (содержащая текст и картинки), то в виде картинки оно в ворд и передастся.
Совершенно очевидно, что у ТС нет текстового слоя.
Тогда уж Программа для PDF-файлов ABBYY PDF Transformer (http://www.abbyy.ru/pdftransformer/). Но это подходит под
2. Страница книги сканируется и распознаётся программами типа FineReader. Тогда на выходе вы получаете редактируемый текст и возможность манипулировать картинками и иными данными. »
© OSzone.net 2001-2012
vBulletin v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.