@immelnikoff
Изучаю БД

Как в pytesseract дополнить алфавит распознавания нужными символами из другого языка?

Поставил движок Tesseract-OCR, затем поставил пакет-врапер pytesseract на Python 3.6.
Распознаю русский текст:
text = pytesseract.image_to_string(Image.open(filename), lang='rus')

Русский текст распознается без проблем. Однако в тексте помимо русских букв встречаются ещё две буквы из английского алфавита: N и E. Как указать скрипту, что в тексте помимо русских букв могут быть ещё две данные буквы из английского алфавита? Или может быть можно самому задать свой набор символов.
И ещё вопрос. Как движку указать шрифт?
  • Вопрос задан
  • 10632 просмотра
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
по простому
lang="rus+eng"
только не офигевай с результатов ))

по сложному - лепить свою обучающую
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы