Войти

Показать полную графическую версию : OCR CuneiForm: Распознавание текстов отныне бесплатно


ShaRP
08-01-2008, 18:15
Примечание автора темы: информация подается как вижу.


OCR CuneiForm: Распознавание текстов отныне бесплатно
Автор: nik / 13.12.2007 г.

header_l.jpgОбразованная в 1993 г. российская компания Cognitive Technologies объявляет о том, что отныне распознавать тексты можно бесплатно.
12 декабря 2007 г. Компания Cognitive Technologies объявляет о запуске программы «Распознавание должно быть на каждом компьютере», о выпуске free-ware версии OCR CuneiForm и об открытии исходных кодов OCR CuneiForm.
Приложение может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных.

Более того, в конце января 2008 г. Cognitive Technologies планирует подготовить бесплатное распознавание текстов в режиме онлайн на сайте www.cuneiform.ru. К концу следующего года с помощью данного ресурса, как ожидается, можно будет распознавать до 10 тыс. документов в день.

Проект является открытым. В марте будущего года планируется выложить исходный код программы. Любой желающий сможет доработать продукт в соответствии со своими желаниями и требованиями.

Предполагается, что одним из основных результатов проекта OCR CuneiForm должен стать рост популярности и распространенности решений в области оптического распознавания печатных текстов (Optical Character Recognition, OCR) благодаря открытости кода и нулевой стоимости ПО.

По данным компании, число активных пользователей OCR за счет использования Open Source к 2010 г. может возрасти в 5 раз, во многом за счет активного подключения офисных сотрудников, учащихся школ, студентов вузов, а также государственных структур, для которых бесплатное ПО станет хорошей альтернативой пиратским продуктам. Таким образом, число пользователей OCR к этому времени может составить порядка 25 млн. человек. Сегодня это число составляет около 5 млн. человек.
Информация об OCR CuneiForm:

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

Характеристики OCR CuneiForm:
высокое качество распознавания;
высокая скорость работы;
распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;
автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
полное сохранение топологии страницы;
поддержка пакетного режима сканирования и распознавания;
простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
встроенный текстовый редактор для работы с распознанным текстом;
совмещенный показ изображений и результатов распознавания.

В системе используется целый ряд уникальных технологий, среди которых адаптивное распознавание, нейронные сети, когнитивный анализ альтернатив распознавания и другие.

Подробная информация на официальном сайте http://www.cuneiform.ru


Источники: http://www.izcity.com/, chip.com.ua (http://chip.com.ua/index.php?option=com_content&task=view&id=664&Itemid=34)

mar
19-01-2008, 19:46
для желающих воспользоваться - не забыть прочитать FAQ (http://www.cuneiform.ru/forum/viewtopic.php?t=18). В частности, самый главный (имхо) его пункт простосто цитирую здесь:
При сканировании у меня возникает сообщение "Ошибка при передаче данных", что мне делать?
Необходимо отредактировать файл face.ini лежащий в директории windows. Находим в файле ключ TWAIN_TransferMode и делаем его равным memory-native
т.е. должно быть TWAIN_TransferMode=memory-native

Для программистов: вскоре, как уже написал ShaRP, будут выложены исходные коды, но уже сейчас доступно API (http://www.cuneiform.ru/downloads/api_puma.zip)

Baw17
19-01-2008, 21:31
ShaRP, попробовал я данную программу, ну что могу сказать
конечно до Finereader ей далеко, но как бесплатный аналог(замено) вполне сносто справляеться

mar
19-01-2008, 22:51
Поставили на win-машину дома (благо сканер на ней) - мне понравилось. Русский распознает без проблем, вид страницы (например, газетные колонки) воспроизводит и отрабатывает быстро. (Единственное, пришлось отредактировать эту строчку в ini-файле). Наличие API вообще открывает кучу возможностей.

Baw17,
А чего в ней нет необходимого для жизни? :)

ShaRP
19-01-2008, 23:19
А чего в ней нет необходимого для жизни? »
PDFники не умеет кушать. А я раскатал губу, надеялся...

mar
19-01-2008, 23:54
ShaRP,
а-а-а Кстати, напиши им на форум - они принимают всякие предложения на что_бы_такое_еще_сделать

Baw17
20-01-2008, 10:07
Baw17,
А чего в ней нет необходимого для жизни? »
распознает хуже чем Finereader

mar
20-01-2008, 19:49
Baw17,
а можно на каком-нибудь небольшом примере? что было и кто что распознал? (В том, что я подсовывала программе пока проблем не было)

Baw17
20-01-2008, 20:07
mar, я проверял без сканера, сделал скриншот страницы на всевозможных вариантах шрифта и попробовал распознать ее
результат прекрипил

mar
20-01-2008, 23:12
Baw17,
спасибо (ну сканер-то используется все равно что там, что там через один и тот же twain, так что в этом месте разницы быть не должно)

(порадовала поэма Роголя :))

Baw17
23-01-2008, 17:47
mar, еще плюс посмотри на размер doc документа

scha
12-11-2008, 11:04
TWAIN_TransferMode=memory-native »
Замена реально работает! УРА!
В принципе CuneiForm » в чем-то лучше Файна. Меньше запутанности в настройке. Более понятен.
Не пользуюсь сканом в .пдф, так сканеры не профф, соответственно качество не для этого стандарта.
Мне эти советы очень помогли. Так как не удалось перехитрить файна. Дело в том, что в сети есть немало крякнутых версий. Понятно, что при запуске одной, другим будет "красный" в работе. Хотя цена в 1.5 т. явно соответствует этому продукту, но наше начальство не просто раскачать на "коммерческое предложение". Вот купить чего-то за пару сотен т., это нормально, а с пол-торашкой кто будет бегать просить?. Вот и пришлось обраться к CuneiForm. Но в целом прога на отличном уровне.

ЗЫ. Кстати, там есть опция "Конвертация в Word" ".... в Excell". Также нормально кажет в этих стандартах, не тока в .ttf.

igorgn
12-11-2008, 13:18
Замена реально работает! УРА! » обшарил весь этот "фэйс". И поиском пробовал. Находим в файле ключ TWAIN_TransferMode »
нет этого ключа, хоть убей! Или, он после создаётся. scha, выложи уже исправленный ini. Посмотрю и сравню.

mar
26-11-2008, 15:53
igorgn,
не могу: диск на win-машине полетел, а на новый поставили Linux. Может быть в новой версии нет ни проблемы, ни ключа?

igorgn
26-11-2008, 16:00
Может быть в новой версии нет ни проблемы, ни ключа? » на сайте производителя всё та же версия. Видно, обновляться и не думают. Мне "ini" нужен был для того, что у самого отсутствует, за отсутствием сканера (как я догадался).




© OSzone.net 2001-2012