Microsoft Office 2010. Как редактировать документ, пролученный из PDF в DOCX

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)

- Microsoft Office (Word, Excel, Outlook и т.д.) (http://forum.oszone.net/forumdisplay.php?f=115)

- - Microsoft Office 2010. Как редактировать документ, пролученный из PDF в DOCX (http://forum.oszone.net/showthread.php?t=340480)

flev45

11-05-2019 18:10 2871228

Microsoft Office 2010. Как редактировать документ, пролученный из PDF в DOCX

При преобразовании из PDF в DOCX, в Word не удаётся что-то делать, например удалить строки.
Посмотрите приложение, этот текст выглядит как фото-PDF... маркер никуда не устанавливается.
Как перейти из этого режима в текстовый режим?
Текстовый редактор, в котором ничего редактировать не получается...

mwz	11-05-2019 18:21 2871229

Цитата:

Цитата flev45

При преобразовании из PDF в DOCX »

Чем преобразуете?

В исходном PDF есть текстовый слой (грубо говоря, можно ли выделить в документе и скопировать в Word кусочки текста)? Если нет — надо программами OCR преобразовывать, которые переводят рисунок текста в текст: например — в FineReader.

flev45

11-05-2019 18:38 2871231

Цитата:

Цитата mwz

Если нет — надо программами OCR преобразовывать, которые переводят рисунок текста в текст: например — в FineReader. »

Загрузил ПВФ в FineReader, переслал в Word 2010, всё равно не получается редактировать.
Может мне стоит поискать простенький PDF-редактор?
Мне всего-то надо убрать лишние строки в PDF-документе... например, оставить только строки с продажами в PayPal. Что посоветуете? Спасибо.

mwz	11-05-2019 19:00 2871233

Цитата:

Цитата flev45

Загрузил ПВФ »

А кто это такой? Пенсионный военный фонд?

Упакуйте свой PDF в архив и выложите на файлообменник: пощупать его.

flev45

11-05-2019 19:13 2871237

Мне кажется, что в FineReader удастся удалить ненужное.
Делаю это при помощи функции "Ластик".
Удалил не нужные области, но теперь надо всё ужать, удалив пустые области документа.
Если просто запомнить в pdf, то эти поля остаются. Можно это сделать в самом FineReader?
Или надо искать какую-то другую прогу?

Iska	11-05-2019 21:55 2871250

flev45, мы ж с Вами вроде в прошлой теме (2010 - [решено] Microsoft Office 2010. Как убрать 1/3 пустого места на каждой странице?) пришли к соглашению, что достаточно простого html→doc, разве нет?

flev45

12-05-2019 10:06 2871268

Цитата:

Цитата Iska

пришли к соглашению, что достаточно простого html→doc, разве нет? »

Конечно нет:(
Там была проблема: после объединения кучи скринов в один docx файл, в конце каждой страницы возникали пустые зоны. После html→pdf эти пустые места исчезли. Т.е. Та проблема была решена, хоть и косвенно.

Тут совсем другая проблема: мне нужно в документе (html, pdf, docx), где отображены купли/продажи на eBay, удалить строки к примеру, все купли и получить документ "продажи".
Я так понял, что даже при html(pdf)→docx я получаю строки не в текстовом виде, а в графическом.
Которые в Word 2010 нельзя корректировать.
Тогда я взял FineReader и удалил в pdf-файле всё ненужное при помощи функции "Ластик".
Всё хорошо, но в любом выходном файле, pdf или docx, образовались пустые зоны (после "Ластик")... которые опять-таки надо удалить. Проблема та же, что в указанной выше теме, но как её решить?
В каком "графическом" редакторе, если такой существует?
ПС: редактор PDF-файлов, который это делает, я пока не нашёл... подскажите.

mwz	12-05-2019 10:31 2871269

flev45, так вы образец PDF-файла приложите — или так и будем ходить вокруг да около?

flev45

12-05-2019 11:17 2871275

PDF- исходник и PDF, полученный из исходника в ABBYY FineReader 11, после удаления в pdf-файле всё ненужное при помощи функции "Ластик".
Именно в нём мне нужно удалить пустые зоны.

mwz	12-05-2019 11:43 2871278

Вложений: 1

Цитата:

Цитата flev45

PDF- исходник »

Странный PDF... При автораспознавании Файнридер берёт часть его как текст — а часть как картинку. Чем вы его создавали (какой программой)?

Результат приложен (в zip-архиве).

flev45

12-05-2019 12:04 2871284

Я его получил конвертированием из файла HTML to PDF на этом сайте:
https://html2pdf.com/ru/
Может есть какие-то ресурсы лучше этого?

mwz	12-05-2019 12:16 2871288

Цитата:

Цитата flev45

Может есть какие-то ресурсы лучше этого? »

Даже без ресурсов — есть масса способов. Например, сохранить страницу как HTML и открыть сохранённый файл в Word — на что уже намекалось в предыдущей теме.

flev45

12-05-2019 12:36 2871294

Уважаемый,
я это уже делал, посмотрите сами на результаты. выход тогда нашёл в HTML to PDF.
Никогда не думал, что настолько сложно/невозможно удалить часть текста из страниц pdf-файла.
Предложите ещё пару-тройку других способов. Намекните. Спасибо.

mwz	12-05-2019 12:47 2871297

Цитата:

Цитата flev45

посмотрите сами на результаты »

Ну надо не только на текст смотреть... Можно поднять глаза чуть выше и увидеть в Word-2010:

flev45

12-05-2019 13:04 2871298

...я знаю, что вы не любите "картинок":)
Но всё-же посмотрите на скрин того, что у меня показывает Word-2010
А если серьёзно, то главное: как и чем можно удалить "пустые" зоны на страницах pdf-документа?

ПС: кажется и тут я нашёл решение -прога priprinter, это то, что мне надо?

mwz	12-05-2019 13:51 2871302

Цитата:

Цитата flev45

на скрин того, что у меня показывает Word-2010 »

И что, не редактируется?

Посмотрите на скрин Word-2010 до (слева от красной черты) и после (справа) редактирования в нём двух страниц вашего предыдущего вложения. Я что-то не то, что вы имеете в виду, делал?

Кстати, есть масса PDF-принтеров и редакторов, в т.ч. бесплатных, например:
— doPDF
— pdf24-creator
— PDFCreator
— SumatraPDF
и т.д.

Iska	12-05-2019 14:01 2871303

flev45, я в очередной раз пытаюсь донести до Вас простую мысль, что Вам нужно было просто скопировать потребное текстовое содержимое из браузера, вставить его в документ Microsoft Word, отредактировать, и только потом пытаться делать pdf из откорректированного документа Microsoft Word.

flev45

12-05-2019 14:20 2871307

Цитата:

Цитата Iska

flev45, я в очередной раз пытаюсь донести до Вас простую мысль »

Уважаемые, а я пытаюсь донести мысль, что мне нужен не просто текст из страницы блаузера, а получить такой же документ. как по форме, так и по содержанию из HTML/PDF - файлов, но БЕЗ не нужных мне "строк". В шапке и далее я прикреплял файло-документы, из которых мне, к примеру, надо удалить все строки, не относящиеся к продажам... мне это удалось, но осталась куча "пустых" областей на страницах.
В этом проблема... надеюсь, что была. Буду пробовать прогу priprinter...

Цитата:

Цитата mwz

И что, не редактируется? »

Что там редактировать? Текст, который сикось-накось.

a_axe

12-05-2019 19:42 2871348

Цитата:

Цитата flev45

Уважаемые, а я пытаюсь донести мысль, что мне нужен не просто текст из страницы блаузера, а получить такой же документ. как по форме, так и по содержанию из HTML/PDF »

flev45, вам выше вам предложен именно этот результат, просто для этого нужно выполнять все ваши действия, но в другом порядке.
Есть такое избитое выражение: картошку сначала моют, потом чистят, потом режут, потом кидают в суп. Теоретически можно сначала порезать, потом почистить, но на практике...

Цитата:

Цитата flev45

но БЕЗ не нужных мне "строк". »

Вот не уверен, что это строки.
В Word текстовое содержимое к страницам никак не привязано (это очень ощутимо при доступе к тексту на VBA). Без проблем можно поменять ориентацию или даже формат каждого листа - Word "перенарежет" содержимое, и всего делов.
В pdf - наоборот, документ изначально побит на страницы, содержимое каждой страницы привязано к этой самой странице. То есть "строки" удалить со сдвигом всего содержимого вверх просто не получится - последующее содержание от предыдущего никак не зависит. Даже содержимое pdf вроде выносок можно таскать в пределах страницы, но нельзя перетащить на соседнюю - выноску нужно вырезать через ctrl+x, и вставить уже на другой странице. А со страницы на страницу - никак. И формат страницы тоже уже не поменять.

Тут правда вопрос тонкий - возможно в Corel Draw или Acrobat Pro это и реализуемо, давно не имел дела.

Цитата:

Цитата flev45

Что там редактировать? Текст, который сикось-накось. »

Это результат преобразования pdf, а не сам исходный файл как таковой, однако в моем восприятии pdf примерно так и устроен.

Текст в pdf занимает конкретное место страницы, и в вашем Word получается полная аналогия: рамки с текстовым содержимым, которые как раз таки можно зафиксировать на странице - можно хоть весь текст удалить, а рамка будет висеть на своем месте. Вы в word можете выполнить весь документ с помощью текстовых блоков (рамочки с текстом) и получить ровно те же проблемы: блоки можно зафиксировать, и тогда удаление лишних блоков соседние блоки не заденет.

В pdf это четко видно при работе с чертежами из autocad - весь текст полученный из автокадовских шрифтов в редакторе отображается с рамочкой, которая показывает границы текстового объекта, а совсем не "строка", вот именно текстовой объект (в acrobate правда отображение по умолчанию отключено). Как я понимаю, даже таблицу pdf воспринимает просто как набор текста и линий, никак друг с другом не связанных.

Цитата:

Цитата flev45

Я его получил конвертированием из файла HTML to PDF на этом сайте: »

Соответственно, если его открыть например в html редакторе и обработать в нем, а потом перевести в pdf?

flev45

13-05-2019 10:06 2871395

Цитата:

Цитата a_axe

Соответственно, если его открыть например в html редакторе и обработать в нем, а потом перевести в pdf? »

Я практик, не теоретик. Вот с этим я согласен безоговорочно. больше того, в моём случае, чтобы легче было ориентироваться и удалять "области" в html редакторе, алгоритм должен быть такой:
1. Перевод HTML to PDF
2. PDF to ABBYY FineReader 11
3. При помощи функции "Ластик" удаляем со страниц всё лишнее
4. Полученный PDF to HTML
5. В HTML удаляем эти пустые области в редакторе
6. Полученный HTML переводим в PDF
Всё. Я должен получить PDF, в моём случае документ "Продажи", без инфы (строк) по покупкам.
ПС: с autocad, в том числе, я работал 40 лет тому, на самых первых персоналках Apple... тогда ещё никому не известных:)

a_axe

13-05-2019 19:59 2871502

flev45, полагаю между пунктами 3 и 4 у вас неизбежно должен возникнуть пункт "Распознать", иначе Finereader просто не даст сохранить pdf. Это краеугольный момент.

По нажатию этой кнопки весь текст вашего pdf переводится в картинку, а затем распознается. Над картинкой с отображением исходного текста помещается невидимый текстовой слой.Что характерно, если снаачала распознать документ, а потом применить ластик - страница становится нераспознанной,т.к. ластик просто замазывает изображение, а с текстом не работает.

При приближении текста в первом pdf гладкий, тк это действительно текст. В рпспознанном - текст уже состоит из квадратиков, тк это лишь изображение текста, которое вы видите, но скопировать не можете, а над ним - текстовой слой, который вы не видите, но можете выделить и скопировать. При этом текст может быть распознан неправильно - например с лишними пробелами или буквой не в той раскладке.

С практической точки зрения - в распознанном pdf в качестве подложки вставлена картинка, и размером она ровно в вашу страницу. Чтобы текст, расположенный над вашей картинкой, сместился, нужно вырезать кусок изображения в середине листа. Не думаю, что это возможно, но если да - вы все равно получите отдельный лист меньшего формата, который будет отдельным от листа перед и листа после. Это не тот результат, который вам нужен, а сделать иначе формат не позволяет, если только не собирать нужные фрагменты вручную, а потом распознавать.

Не вижу другого варианта, как сначала получить результат по содержанию (копируя из html или редактируя html), а потом переводить в pdf, и не вижу объективных причин, которые вынуждали бы вас делать по-другому.

Добавлено:
Кстати, если открыть редактированный pdf через word, там все это очень хорошо видно: и рамочка с невидимым текстом, которую можно сдвинуть относительно видимого текста, и картинка с текстом, которую можно обрезать - границы у нее по листу.

Iska	13-05-2019 22:54 2871532

Цитата:

Цитата a_axe

flev45, полагаю между пунктами 3 и 4 у вас неизбежно должен возникнуть пункт "Распознать", иначе Finereader просто не даст сохранить pdf. »

Именно pdf — даст. А вот так, как хочет автор — сохранить в html — действительно не позволит.

Цитата:

Цитата flev45

ПС: с autocad, в том числе, я работал 40 лет тому, на самых первых персоналках Apple... тогда ещё никому не известных »

«Нэ вэрю!»™. ~~Во времена Шекспира~~ Сорок лет назад ~~не было сигарет «Друг»~~ ёще не существовало программного продукта под названием AutoCAD.

a_axe

13-05-2019 23:24 2871538

Iska, ну может быть и так - значит я не тот порядок действий выбрал :)
У меня любая попытка сохранить pdf - через кнопку отправить, или через меню "сохранить как" - давало диалог "Страница не распознана, распознать" и из опций либо распознать, либо отменить сохранение. По-раздумью, не в первый раз слышу, что через Finereader можно редактировать pdf, надо с этим поразбираться :)

Iska	14-05-2019 18:03 2871691

a_axe, в восьмой версии это выглядит так:

Скрытый текст

в четырнадцатой версии так:

Скрытый текст

Цитата:

Цитата a_axe

По-раздумью, не в первый раз слышу, что через Finereader можно редактировать pdf, надо с этим поразбираться »

Неа, нельзя. Токмо после распознавания (если не считать редактированием использование Ластика [я — не считаю]).

a_axe

14-05-2019 18:36 2871699

Цитата:

Цитата Iska

в восьмой версии это выглядит так: »

В 11 аналогично, но следующий шаг доступен только если документ распознан.
Если например открыть pdf и переставить местами странички, и попытаться сохранить через ctrl+alt+s, то попросит либо распознать, либо отказаться от сохранения.
Поэтому ТС в 11 версии обязательно должен был его распознать, иначе бы не сохранил.

Iska	14-05-2019 19:03 2871701

a_axe, в четырнадцатой версии данная операция:

Цитата:

Цитата a_axe

Если например открыть pdf и переставить местами странички, »

не вызвала необходимости распознавания при сохранении. В восьмой версии перемещение страниц из открытого pdf не поддерживается.

Vadikan

14-05-2019 21:04 2871720

Закрываю, поскольку ТС открыл уже третью тему по вопросу, а здесь развели оффтоп.

Время: 19:45.