как распечатать pdf, djvu без картинок? [Версия для КПК]

Показать полную графическую версию : как распечатать pdf, djvu без картинок?

Страниц : [1] 2

spyphy

12-10-2011, 10:48

Нужно распечатать отсканеную книгу. Там очень много картинок, которые никакой смысловой нагрузки не несут (учебник по англ.языку). И в целом это часто встречаемая проблема. Казалось бы положение безвыходное, но ведь уже 21-ый век, неужели наука до сих пор ничего не придумала?

Morpheus

12-10-2011, 11:42

spyphy, сканировать можно по-разному.
1. Страница книги сканируется в виде одной картинки. Способ менее трудоёмкий, но уже ни текст не отредактировать, ни картинки не вырезать (как картинку вырезать из картинки и кто должен отличить картинки от текста?).
Лечится вторым способом.
2. Страница книги сканируется и распознаётся программами типа FineReader. Тогда на выходе вы получаете редактируемый текст и возможность манипулировать картинками и иными данными.

Вопрос: каким способом отсканирована книга? Есть ли в ваших pdf-ах текстовый слой (проверяется возможностью выделения)?
http://s45.radikal.ru/i107/1110/62/8fb7f56f6274t.jpg (http://radikal.ru/F/s45.radikal.ru/i107/1110/62/8fb7f56f6274.jpg.html)

El Scorpio

13-10-2011, 10:16

Нужно распечатать отсканеную книгу. Там очень много картинок, которые никакой смысловой нагрузки не несут (учебник по англ.языку) »
Там вся страница представляет собой одну картинку (набор точек разного цвета), которую для получения текста (набора символов) нужно обработать программой распознавания текста (FineReader или аналогичной)

spyphy

13-10-2011, 14:38

Там вся страница представляет собой одну картинку »
это я в курсе.
распознавание и копирование текста - вряд ли лучший способ.
Там некоторые картинки занимают по пол страницы (с 90% заполнением). Неплохо было бы иметь ПО, каторое бы распознавало именно эти картинки и удаляла их хотя бы частично. В крайнем случае сгодился бы ручной инструмент для выделения таких картинок (но только чтобы быстро и удобно было, так как много страниц обрабатывать надо).

может под линуксом какие то утилиты существуют, способные совершать подобную обработку изображений, а там глядишь и автоматизировать можно будет?...

Еще здесь имеется вторая проблема - это когда текст на тёмном фоне. Ксерокс как-то умеет рапознавать это дело и печатает без фона. А вот можно ли так настроить принтер или акробат-ридер, чтобы он автоматически менял контрастность?...

freese

13-10-2011, 15:11

В крайнем случае сгодился бы ручной инструмент для выделения таких картинок »
тот же finereader определяет картинки

Busla

14-10-2011, 09:49

FineReader - штука хорошая, но не панацея - после него необходимо вычитывать текст, т.к. распознаётся не всегда верно.

Iska

14-10-2011, 10:17

Busla, предложения?

Morpheus

14-10-2011, 11:14

Мне вот интересно, любая тема, если она находится в ХВЗ, должна наполниться флеймом?

Iska

14-10-2011, 12:34

Morpheus, где флейм? Вроде нету. Рассуждения, как можно добиться желаемого автором результата.

Morpheus

14-10-2011, 13:59

Iska, пока нету. Но и идей, кроме второй раз предложенного файнридера тоже нету. Слишком много в последнее время развелось пустых и дублирующих сообщений, которые кроме шума в эфире ничего не создают.

spyphy

16-10-2011, 19:34

придётся значит в Adobe Acrobat Professional в ручную выделять - не панацея но хоть что-то. 21 век блин называется

Grabber2006

16-10-2011, 19:54

Мне всегда казалось, что купить книгу будет дешевле, чем её распечатать.

lxa85

17-10-2011, 01:32

Конечно не FineReader'ом единым живет человечество (раз (http://en.wikipedia.org/wiki/List_of_optical_character_recognition_software)), но это первое, что приходит в голову.
Завтра постараюсь уточнить еще одно название программы распознавания страниц. Приобрели ген. директору лазерный МФУ от HP, там в комплекте ПО распознавания шло. Вполне успешно распознала тестовую страницу. Насколько сопоставимы продукты по цене/качеству сказать не могу, но как альтернатива мне понравилась.

lxa85

22-10-2011, 09:52

Вспомнил! READIris (http://www.irislink.com/c2-1684-189/Readiris-12-for-Windows.aspx)

cher

22-10-2011, 10:17

если есть текстовый слой, то можно и так (http://www.youtube.com/watch?v=4lQlxMtAHro)
если нет то можно как то так (http://www.youtube.com/watch?v=mw5HHfGV66k)

Morpheus

22-10-2011, 10:21

если нет то можно как то так »
Гениально! Каждой строчке текста свой лист! :)
Мож тогда графический редактор ещё подключить и собирать из кусочков страничку? :)

cher

22-10-2011, 10:26

Morpheus, с тем же файнридером выйдет не быстрее. :)
или еще так (http://www.youtube.com/watch?v=WoHmSDo8GqI)

yurfed

22-10-2011, 10:34

А вот так? http://www.pdftoword.com/ (convert all your files free for 14 days)
Затем элементарно убрать картинки. (Правда сам никогда не юзал :)
http://s017.radikal.ru/i437/1110/1a/73c9ec8298aa.jpg (http://www.radikal.ru)

cher

22-10-2011, 10:56

yurfed, юзал, но с djvu не работает.

Morpheus

22-10-2011, 11:10

с тем же файнридером выйдет не быстрее. »
Побыстрее. Можно настроить чтобы только текст вставлялся.
А если потом понадобится размер шрифта увеличить? Засада. Страницы уже собраны.
А вот так? http://www.pdftoword.com/ (convert all your files free for 14 days) »
Дык, это ж очередная поделка для недоразвитых, которые не умеют Ctrl+A, Ctrl+C, Ctrl+V.
Если в PDF нет текстового слоя, а только картинка (содержащая текст и картинки), то в виде картинки оно в ворд и передастся.
Совершенно очевидно, что у ТС нет текстового слоя.

Тогда уж Программа для PDF-файлов ABBYY PDF Transformer (http://www.abbyy.ru/pdftransformer/). Но это подходит под
2. Страница книги сканируется и распознаётся программами типа FineReader. Тогда на выходе вы получаете редактируемый текст и возможность манипулировать картинками и иными данными. »