Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Хочу все знать (http://forum.oszone.net/forumdisplay.php?f=23)
-   -   [решено] Пакетный экспорт pdf в docx с помощью Acrobat Pro (http://forum.oszone.net/showthread.php?t=339471)

The_Immortal 01-03-2019 09:53 2860664

Пакетный экспорт pdf в docx с помощью Acrobat Pro
 
Господа, кто-нибудь в курсе каким образом сделать с помощью Adobe Acrobat Pro DC 2019 пакетное преобразование pdf-файлов в docx в указанном каталоге и всех вложенных подкаталогов?

Что я делаю:

1. Инструменты - Мастер действий - Новое действие.
2. В правом столбце создаваемого действия выбираю "Добавить папку...".
3. В левом столбце создаваемого действия выбираю Перейти - Экспорт PDF.

Теперь пытаюсь воспользоваться данным действием: выбираю каталог, далее появляется окно "Экспортируйте файлы PDF в любой формат" (там выбираю Microsoft Word -> Документ Word), жму Экспорт и... Мне предлагается указать наименование экспортируемого файла. Одного. И на этом "пакетная" обработка заканчивается.

В общем, как запустить автоматический экспорт всего в каталоге?

Спасибо!

Busla 01-03-2019 10:45 2860668

The_Immortal, PDF - это картинка в векторном формате. А Word - система семантической разметки текста. Чтобы картинку преобразовать в текст нужна OCR, например Abbyy FireReader, а не программа вёрстки типа Adobe Acrobat Pro

The_Immortal 01-03-2019 11:07 2860674

Busla,
Цитата:

Цитата Busla
PDF - это картинка в векторном формате »

Не всегда.
Цитата:

Цитата Busla
а не программа вёрстки типа Adobe Acrobat Pro »

Вероятно, как раз-таки содержит OCR, т.к. Adobe Acrobat распознает текст налету в случае необходимости.


В общем, проблему решил:
Цитата:

Цитата The_Immortal
В левом столбце создаваемого действия выбираю Перейти - Экспорт PDF. »

Тут надо выбрать пункт Сохранить и экспортировать - Сохранить, а далее уже в настройках добавленного меню указать внизу Экспортировать файлы в другой формат - Документ Word.

Iska 01-03-2019 19:13 2860740

Цитата:

Цитата Busla
The_Immortal, PDF - это картинка в векторном формате. »

Не так. PDF — это, фактически, проприентарный язык описания страниц (такой же, как PostScript, PCL, EPS & etc). И, если, например, текст pdf-файла был сформирован непосредственно из приложения (неважно, будь то непосредственное сохранение в формат pdf, або печать на виртуальный PDF-принтер, суть одно и то же) — последние версии того же Word'а легко открывают такой pdf-файл и извлекают из него текст в нужном начертании и расположении, поскольку таковой там реально присутствует. А вот если содержимое pdf-файла было создано тупо прямым сканированием — здесь лучше не экспериментировать, а зараз брать какой-нибудь приличный OCR.


The_Immortal, а с Word'ом не пробовали — скриптом/макросом?

mwz 01-03-2019 22:45 2860789

Цитата:

Цитата Iska
поскольку таковой там реально присутствует »

Угу. Причём в специальном текстовом слое PDF-файла. Которого не будет при простом сканировании в PDF.

Busla 02-03-2019 01:10 2860833

Цитата:

Цитата Iska
И, если, например, текст pdf-файла был сформирован непосредственно из приложения — последние версии того же Word'а легко открывают такой pdf-файл »

Это в случае простого форматирования - пока совпадают возможности исходного формата, pdf и Word'а. Если к примеру текст в несколько колонок да ещё с фигурным обтеканием, есть вероятность, что порядок текста не сохранится.

Цитата:

Цитата mwz
Причём в специальном текстовом слое PDF-файла. »

AFAIK в исходно цифровых документах "текстовый слой" отсутствует

PDF - открытый формат

PCL - язык управления принтером. Он, конечно, тоже в итоге графические примитивы описывает, но всё-таки немножко из другой оперы

Iska 02-03-2019 09:42 2860851

Цитата:

Цитата Busla
PDF - открытый формат »

Да, Вы правы, а я — нет.

Цитата:

Цитата Busla
Если к примеру текст в несколько колонок да ещё с фигурным обтеканием, есть вероятность, что порядок текста не сохранится. »

Смотреть-пробовать надо. У меня «шашнадцатый» Office токмо на работе.


Время: 18:06.

Время: 18:06.
© OSzone.net 2001-