Microsoft Office 2010. Как редактировать документ, пролученный из PDF в DOCX
При преобразовании из PDF в DOCX, в Word не удаётся что-то делать, например удалить строки.
Посмотрите приложение, этот текст выглядит как фото-PDF... маркер никуда не устанавливается. Как перейти из этого режима в текстовый режим? Текстовый редактор, в котором ничего редактировать не получается... |
Цитата:
В исходном PDF есть текстовый слой (грубо говоря, можно ли выделить в документе и скопировать в Word кусочки текста)? Если нет — надо программами OCR преобразовывать, которые переводят рисунок текста в текст: например — в FineReader. |
Цитата:
Может мне стоит поискать простенький PDF-редактор? Мне всего-то надо убрать лишние строки в PDF-документе... например, оставить только строки с продажами в PayPal. Что посоветуете? Спасибо. |
Цитата:
Упакуйте свой PDF в архив и выложите на файлообменник: пощупать его. |
Мне кажется, что в FineReader удастся удалить ненужное.
Делаю это при помощи функции "Ластик". Удалил не нужные области, но теперь надо всё ужать, удалив пустые области документа. Если просто запомнить в pdf, то эти поля остаются. Можно это сделать в самом FineReader? Или надо искать какую-то другую прогу? |
flev45, мы ж с Вами вроде в прошлой теме (2010 - [решено] Microsoft Office 2010. Как убрать 1/3 пустого места на каждой странице?) пришли к соглашению, что достаточно простого html→doc, разве нет?
|
Цитата:
Там была проблема: после объединения кучи скринов в один docx файл, в конце каждой страницы возникали пустые зоны. После html→pdf эти пустые места исчезли. Т.е. Та проблема была решена, хоть и косвенно. Тут совсем другая проблема: мне нужно в документе (html, pdf, docx), где отображены купли/продажи на eBay, удалить строки к примеру, все купли и получить документ "продажи". Я так понял, что даже при html(pdf)→docx я получаю строки не в текстовом виде, а в графическом. Которые в Word 2010 нельзя корректировать. Тогда я взял FineReader и удалил в pdf-файле всё ненужное при помощи функции "Ластик". Всё хорошо, но в любом выходном файле, pdf или docx, образовались пустые зоны (после "Ластик")... которые опять-таки надо удалить. Проблема та же, что в указанной выше теме, но как её решить? В каком "графическом" редакторе, если такой существует? ПС: редактор PDF-файлов, который это делает, я пока не нашёл... подскажите. |
flev45, так вы образец PDF-файла приложите — или так и будем ходить вокруг да около?
|
PDF- исходник и PDF, полученный из исходника в ABBYY FineReader 11, после удаления в pdf-файле всё ненужное при помощи функции "Ластик".
Именно в нём мне нужно удалить пустые зоны. |
Вложений: 1
Цитата:
Результат приложен (в zip-архиве). |
Я его получил конвертированием из файла HTML to PDF на этом сайте:
https://html2pdf.com/ru/ Может есть какие-то ресурсы лучше этого? |
Цитата:
|
Уважаемый,
я это уже делал, посмотрите сами на результаты. выход тогда нашёл в HTML to PDF. Никогда не думал, что настолько сложно/невозможно удалить часть текста из страниц pdf-файла. Предложите ещё пару-тройку других способов. Намекните. Спасибо. |
Цитата:
|
...я знаю, что вы не любите "картинок":)
Но всё-же посмотрите на скрин того, что у меня показывает Word-2010 А если серьёзно, то главное: как и чем можно удалить "пустые" зоны на страницах pdf-документа? ПС: кажется и тут я нашёл решение -прога priprinter, это то, что мне надо? |
Цитата:
Посмотрите на скрин Word-2010 до (слева от красной черты) и после (справа) редактирования в нём двух страниц вашего предыдущего вложения. Я что-то не то, что вы имеете в виду, делал? Кстати, есть масса PDF-принтеров и редакторов, в т.ч. бесплатных, например: — doPDF — pdf24-creator — PDFCreator — SumatraPDF и т.д. |
flev45, я в очередной раз пытаюсь донести до Вас простую мысль, что Вам нужно было просто скопировать потребное текстовое содержимое из браузера, вставить его в документ Microsoft Word, отредактировать, и только потом пытаться делать pdf из откорректированного документа Microsoft Word.
|
Цитата:
В этом проблема... надеюсь, что была. Буду пробовать прогу priprinter... Цитата:
|
Цитата:
Есть такое избитое выражение: картошку сначала моют, потом чистят, потом режут, потом кидают в суп. Теоретически можно сначала порезать, потом почистить, но на практике... Цитата:
В Word текстовое содержимое к страницам никак не привязано (это очень ощутимо при доступе к тексту на VBA). Без проблем можно поменять ориентацию или даже формат каждого листа - Word "перенарежет" содержимое, и всего делов. В pdf - наоборот, документ изначально побит на страницы, содержимое каждой страницы привязано к этой самой странице. То есть "строки" удалить со сдвигом всего содержимого вверх просто не получится - последующее содержание от предыдущего никак не зависит. Даже содержимое pdf вроде выносок можно таскать в пределах страницы, но нельзя перетащить на соседнюю - выноску нужно вырезать через ctrl+x, и вставить уже на другой странице. А со страницы на страницу - никак. И формат страницы тоже уже не поменять. Тут правда вопрос тонкий - возможно в Corel Draw или Acrobat Pro это и реализуемо, давно не имел дела. Цитата:
Текст в pdf занимает конкретное место страницы, и в вашем Word получается полная аналогия: рамки с текстовым содержимым, которые как раз таки можно зафиксировать на странице - можно хоть весь текст удалить, а рамка будет висеть на своем месте. Вы в word можете выполнить весь документ с помощью текстовых блоков (рамочки с текстом) и получить ровно те же проблемы: блоки можно зафиксировать, и тогда удаление лишних блоков соседние блоки не заденет. В pdf это четко видно при работе с чертежами из autocad - весь текст полученный из автокадовских шрифтов в редакторе отображается с рамочкой, которая показывает границы текстового объекта, а совсем не "строка", вот именно текстовой объект (в acrobate правда отображение по умолчанию отключено). Как я понимаю, даже таблицу pdf воспринимает просто как набор текста и линий, никак друг с другом не связанных. Цитата:
|
Цитата:
1. Перевод HTML to PDF 2. PDF to ABBYY FineReader 11 3. При помощи функции "Ластик" удаляем со страниц всё лишнее 4. Полученный PDF to HTML 5. В HTML удаляем эти пустые области в редакторе 6. Полученный HTML переводим в PDF Всё. Я должен получить PDF, в моём случае документ "Продажи", без инфы (строк) по покупкам. ПС: с autocad, в том числе, я работал 40 лет тому, на самых первых персоналках Apple... тогда ещё никому не известных:) |
flev45, полагаю между пунктами 3 и 4 у вас неизбежно должен возникнуть пункт "Распознать", иначе Finereader просто не даст сохранить pdf. Это краеугольный момент.
По нажатию этой кнопки весь текст вашего pdf переводится в картинку, а затем распознается. Над картинкой с отображением исходного текста помещается невидимый текстовой слой.Что характерно, если снаачала распознать документ, а потом применить ластик - страница становится нераспознанной,т.к. ластик просто замазывает изображение, а с текстом не работает. При приближении текста в первом pdf гладкий, тк это действительно текст. В рпспознанном - текст уже состоит из квадратиков, тк это лишь изображение текста, которое вы видите, но скопировать не можете, а над ним - текстовой слой, который вы не видите, но можете выделить и скопировать. При этом текст может быть распознан неправильно - например с лишними пробелами или буквой не в той раскладке. С практической точки зрения - в распознанном pdf в качестве подложки вставлена картинка, и размером она ровно в вашу страницу. Чтобы текст, расположенный над вашей картинкой, сместился, нужно вырезать кусок изображения в середине листа. Не думаю, что это возможно, но если да - вы все равно получите отдельный лист меньшего формата, который будет отдельным от листа перед и листа после. Это не тот результат, который вам нужен, а сделать иначе формат не позволяет, если только не собирать нужные фрагменты вручную, а потом распознавать. Не вижу другого варианта, как сначала получить результат по содержанию (копируя из html или редактируя html), а потом переводить в pdf, и не вижу объективных причин, которые вынуждали бы вас делать по-другому. Добавлено: Кстати, если открыть редактированный pdf через word, там все это очень хорошо видно: и рамочка с невидимым текстом, которую можно сдвинуть относительно видимого текста, и картинка с текстом, которую можно обрезать - границы у нее по листу. |
Цитата:
Цитата:
|
Iska, ну может быть и так - значит я не тот порядок действий выбрал :)
У меня любая попытка сохранить pdf - через кнопку отправить, или через меню "сохранить как" - давало диалог "Страница не распознана, распознать" и из опций либо распознать, либо отменить сохранение. По-раздумью, не в первый раз слышу, что через Finereader можно редактировать pdf, надо с этим поразбираться :) |
a_axe, в восьмой версии это выглядит так:
Скрытый текст
в четырнадцатой версии так: Скрытый текст
Цитата:
|
Цитата:
Если например открыть pdf и переставить местами странички, и попытаться сохранить через ctrl+alt+s, то попросит либо распознать, либо отказаться от сохранения. Поэтому ТС в 11 версии обязательно должен был его распознать, иначе бы не сохранил. |
a_axe, в четырнадцатой версии данная операция:
Цитата:
|
Закрываю, поскольку ТС открыл уже третью тему по вопросу, а здесь развели оффтоп.
|
Время: 19:45. |
Время: 19:45.
© OSzone.net 2001-