Сменить кодировку текста pdf

Даны pdf-файл, сделаны latex+dvips+ps2pdf, исходник утеряны или скрыты создателями :)
Если в adobe pdf reader выделить текст и скопировать куда-нибудь, скопируются крякозябры, например "Ñòîõàñòè÷åñêèé".
Вследствие плохой кодировки не работает, например поиск по файлу.
Для некоторых из имеющихся файлов помогает использование foxit вместо adobe для поиска, но хочется, чтобы любой ридер мог читать. Требуется, видимо, изменить кодировку чего-то внутри (или вне?) pdf. Порылся в интернетах, ничего полезного не нашёл, хотя проблема, вроде, не редкая. Посоветуйте какой-нибудь софт или последовательность действий, чтобы это исправить. Операционная система любая.
  • Вопрос задан
  • 109468 просмотров
Решения вопроса 1
PoCTo
@PoCTo Автор вопроса
Нашёл решение для моих случаев:
gs -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER  -sOutputFile=output.pdf input.pdf

После этого у output.pdf невероятным образом появляется верная кодировка.
В Windows исполняемый файл должен называться gsw32c, gswin32c, или тоже gs.
Ответ написан
Пригласить эксперта
Ответы на вопрос 5
loenkoff
@loenkoff
HTML/CSS/JS Web-App Developer
Я восстановил файл (ТУ из ГОСТ с таблицами и формулами) с той же проблемой (без исходников и с сохранением формата) с помощью https://finereaderonline.com/ - наверное, то же самое можно сделать обычным FineReader'ом. Результат экспортируется в любой текстовый формат.

(понимаю, что некропостинг, но т.к. нормального рабочего ответа по восстановлению без исходников в сети не нашел, то может быть этот вариант будет еще кому-то полезен)

В онлайн-версии распознавание более 11 страниц платное, но я думаю в последующем при подобной проблеме можно и не пожмотиться (ABBYY продают пакеты страниц, не обязательно прогу покупать) ради благой цели. В этот раз мне хватило 10 страниц - я отметил выборочные.
Ответ написан
@Mehabr
Мне помогает в этом деле следующие. Я из pdf из которого не копируется кириллица, через ctrl+p создаю новую pdf используя принтер Adobe PDF и из новой pdf русский текст копирует.
Ответ написан
Nickel3000
@Nickel3000
У вас текст в кодировке CP1252 (слово «Стохастический»). Вам нужно вытащить весь текст из pdf, изменить кодировку и снова сохранить в pdf. Форматирование скорее всего потеряется, я не спец. Возможно, как-то можно преобразовать кодировку в каком-либо редакторе pdf.
Ответ написан
nazarpc
@nazarpc
Open Source enthusiast
Если по фразам — то переводить можно в декодере, а чтобы всю книжку — как-то тоже пробовал, ничего так и не получилось.
Ответ написан
@photovideomaster
File\Save as\выбираем формат\жмем справа "Settings"\если выбранный формат предполагает изменение кодировки, выбираем нужное (обычно UTF-8)\жмем Save\Ждем\Радуемся
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
PiRL Ventures Москва
от 80 000 руб.
Dialog Москва
от 180 000 руб.
Rubraga Москва
от 30 000 до 150 000 руб.
16 июн. 2019, в 15:51
50000 руб./за проект
16 июн. 2019, в 15:21
1000 руб./за проект
16 июн. 2019, в 15:01
1000 руб./за проект