@vyn

Распознавание печатной формы. Оптимальный алгоритм?

Добрый день! Задача состоит в распознавании сканированной печатной формы и конвертации её к html виду. На данный момент я применяю tess4j java-форк библиотеки tesseract. Однако, возникла проблема сегментации изображения на подобласти (div регионы) с целью мак. качества распознавания. Существуют ли другие решения, оч. желатательно freeware?
  • Вопрос задан
  • 291 просмотр
Пригласить эксперта
Ответы на вопрос 1
movemind
@movemind
Аналитик из Кнопки
По нашему опыту OCR от tesseract ужасен :) это действительно так.
По пробуйте хотя бы Google Cloud Vision API – до 1000 страниц бесплатно, и затем за каждую 1000 всего $1,5

Но лучше всего конечно же ABBYY, у него OCR лучше всех.

Вам нужно искать по теме form processing — это именно нахождение областей в документе, а не просто его распознавание.

Попробуйте поискать так:
— ocr form processing open source
— form processing java
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы