Сменить кодировку текста pdf

Question

PoCTo @PoCTo

Сменить кодировку текста pdf

Даны pdf-файл, сделаны latex+dvips+ps2pdf, исходник утеряны или скрыты создателями :)
Если в adobe pdf reader выделить текст и скопировать куда-нибудь, скопируются крякозябры, например "Ñòîõàñòè÷åñêèé".
Вследствие плохой кодировки не работает, например поиск по файлу.
Для некоторых из имеющихся файлов помогает использование foxit вместо adobe для поиска, но хочется, чтобы любой ридер мог читать. Требуется, видимо, изменить кодировку чего-то внутри (или вне?) pdf. Порылся в интернетах, ничего полезного не нашёл, хотя проблема, вроде, не редкая. Посоветуйте какой-нибудь софт или последовательность действий, чтобы это исправить. Операционная система любая.

Вопрос задан более трёх лет назад
214760 просмотров

Комментировать

Подписаться 12 Средний Комментировать

Решения вопроса 1

9 комментариев

Андрей Шевчук @IIIEB4YK

В моём случае не работает Т__Т (Ubuntu 12.10, GPL Ghostscript 9.06)

Написано более трёх лет назад
romakoks @romakoks

на windows не вышло просто потому что ghostscript не хотел добавляться в path. На ubuntu все прошло гладко.

Написано более трёх лет назад
mrdrkot @mrdrkot

у меня тоже не сработало...

Написано более трёх лет назад
Дмитрий Власов @vlasovde

romakoks: Скачал Ghostscript c "ghostscript.com/download/gsdnld.html". Установил версию x64, Win 8.1. Затем запустил грубо указав полный путь к файлам^ C:\>"C:\Program Files\gs\gs9.19\bin\gswin64.exe" -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER -sOutputFile="C:\test\output.pdf" "C:\test\Input.pdf"

Написано более трёх лет назад
R80 @R80

Дмитрий Власов:
У меня при выполнении данных действий Ghostscript выдаёт ошибку:

Error: /undefined in C:\
Operand stack:

Execution stack:
%interp_exit .runexec2 --nostringval-- --nostringval-- --nostringval-
- 2 %stopped_push --nostringval-- --nostringval-- %loop_continue --n
ostringval-- --nostringval-- false 1 %stopped_push .runexec2 --nostr
ingval-- --nostringval-- --nostringval-- 2 %stopped_push --nostringval
--
Dictionary stack:
--dict:1194/1684(ro)(G)-- --dict:0/20(G)-- --dict:78/200(L)--
Current allocation mode is local
Last OS error: No such file or directory
Current file position is 3

Не подскажете, как решить проблему? Win7 32

Написано более трёх лет назад
PoCTo @PoCTo Автор вопроса

R80: попробуйте слеш в пути к файлу другую сторону развернуть, проверьте, что взяли пути в кавычки, или просто указывайте относительные пути вместо полных. Судя по "Last OS error: No such file or directory", не получилось распознать путь, который вы задали.
Чтобы не мучаться с путями, добавьте в PATH путь к бинарнику gs, тогда будет удобно и коротко, как в моем изначальном решении

Впрочем, через полтора месяца после вопроса это уже может быть и неважно :)

Написано более трёх лет назад
R80 @R80

PoCTo: да нет, почему же, очень важно. Потому как имеющийся документ тянет почти на 300 страниц. Через OCR его заново прогонять просто дикость. Что касается GS, то попробовал сейчас ваши рекомендации относительно слэша и кавычек - всё тщетно. Кавычки стоят. Разворот слэша ничего не меняет. Вот фраза про добавление в PATH путь к бинарнику gs, мне, как полнейшему профану в этом деле, не совсем понятна.
Сейчас я действую по сценарию, описанному у Дмитрия. Я просто копирую его путь C:\>"C:\Program Files\gs\gs9.19\bin\gswin64.exe" -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER -sOutputFile="C:\test\output.pdf" "C:\test\Input.pdf", естественно поместив в указанные папки нужные файлы с указанными наименованиями, и меняю gswin64.exe на gswin32c.exe. Может быть я где-то на этом этапе допускаю некую кощунственную ошибку, которая и является причиной гневных ответов gs в мой адрес? Хотелось бы разобраться.

Написано более трёх лет назад
Leonid Fedotov @iLeonidze

Пытаюсь сконвертировать CP1252 → CP1251, увы, фокус не удался, хотя все верно отработало и новый файл даже создался

Написано более трёх лет назад
MrNobody @MrNobody

Leonid Fedotov, Безусловно уже слегка поздновато, но вдруг пригодится еще кому-нибудь.

Для преобразование текста(без должно форматирования, к сожалению) можно сделать так:
Открыть notepad++, создать новый файл с кодировкой в которой у вас текст(выбрать кодировку в настройках их которой нужно конвертировать), сохранить, скопировать кракозабры(текст из pdf файла cp1252), заменить кодировку на cp1251 в меню.
После этого текст будет читаем и им можно будет воспользоваться.

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 6

1 комментарий

Комментировать

3 комментария

PoCTo @PoCTo Автор вопроса

это я тоже понял, воспользовавшись habrahabr.ru/post/147843/ :)
вопрос только в том, как мне вытащить ocr, сконвертить его и вернуть на место, пока лучший придуманный способ — прогнать через finereader и распознать заново, но это совсем уж в лоб

Написано более трёх лет назад
Nickel3000 @Nickel3000

А можно пример файла?

Написано более трёх лет назад
PoCTo @PoCTo Автор вопроса

Удивительно, решение благодаря вам нашлось неожиданно!
Я пытался вырезать страничку из большой pdf-ки с помощью gs, и после вырезания эта страница работала с поиском! Видимо ghostscript сам проставил кодировку где-то.

Написано более трёх лет назад

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Кодировка символов

+2 ещё

Средний
Почему mailman заменяет не латинские буквы на кракозябры?
- 1 подписчик
- 21 февр.
- 83 просмотра
1

ответ
Регулярные выражения

+2 ещё

Простой
Как правильно экранировать символ [ в regex ansible?
- 2 подписчика
- 13 янв.
- 155 просмотров
1

ответ
Кодировка символов

Простой
Как сделать FoxPro 2.6 + dbf читабельную кодировку?
- нет подписчиков
- 12 янв.
- 98 просмотров
1

ответ
MySQL

+2 ещё

Простой
Почему в дампе БД (utf8) при создании триггера БД переводится в cp1251?
- 1 подписчик
- 21 дек. 2023
- 213 просмотров
0

ответов
Linux

+2 ещё

Простой
1С + Postgres, имя базы отображается знаками вопроса, как переименовать базу?
- 1 подписчик
- 08 дек. 2023
- 148 просмотров
2

ответа
Мобильные устройства

+4 ещё

Средний
Загрузка контактов в телефон срабатывает некорректно. Поможете?
- 1 подписчик
- 23 нояб. 2023
- 45 просмотров
0

ответов
WordPress

+1 ещё

Средний
Почему вордпресс сохраняет с ошибкой кодировки?
- 1 подписчик
- 22 нояб. 2023
- 68 просмотров
0

ответов
Linux

+3 ещё

Простой
Почему в .txt файле на Linux появляется «лишний» байт?
- 1 подписчик
- 09 нояб. 2023
- 535 просмотров
3

ответа
Кодировка символов

Простой
Как расшифровать текст?
- 1 подписчик
- 22 сент. 2023
- 153 просмотра
1

ответ
Linux

+1 ещё

Простой
Как конвертировать iso-8859-1 в utf-8?
- 1 подписчик
- 13 сент. 2023
- 213 просмотров
0

ответов
Показать ещё Загружается…

Руководитель отдела тестирования/QA Lead

Uniscan Research • Новосибирск

от 175 000 до 210 000 ₽

Senior .NET Core developer

Spatium Software • Каир

от 250 000 до 300 000 ₽

Kotlin Backend-разработчик

vivaCRM • Москва

от 200 000 до 250 000 ₽

Devops для видео сервиса

26 апр. 2024, в 06:46

1000 руб./в час

Найти ошибку flutter_map

26 апр. 2024, в 05:31

1000 руб./за проект

Разработать электронику для весов с Wi-Fi

26 апр. 2024, в 01:22

1000 руб./в час

Answer 1 · 2013-01-11 22:41:08

Нашёл решение для моих случаев:

gs -sDEVICE=pdfwrite -dNOPAUSE -dBATCH -dSAFER  -sOutputFile=output.pdf input.pdf

После этого у output.pdf невероятным образом появляется верная кодировка.
В Windows исполняемый файл должен называться gsw32c, gswin32c, или тоже gs.

Answer 2 · 2017-08-21 17:59:15

Мне помогает в этом деле следующие. Я из pdf из которого не копируется кириллица, через ctrl+p создаю новую pdf используя принтер Adobe PDF и из новой pdf русский текст копирует.

Answer 3 · 2016-09-21 15:53:41

Я восстановил файл (ТУ из ГОСТ с таблицами и формулами) с той же проблемой (без исходников и с сохранением формата) с помощью https://finereaderonline.com/ - наверное, то же самое можно сделать обычным FineReader'ом. Результат экспортируется в любой текстовый формат.

(понимаю, что некропостинг, но т.к. нормального рабочего ответа по восстановлению без исходников в сети не нашел, то может быть этот вариант будет еще кому-то полезен)

В онлайн-версии распознавание более 11 страниц платное, но я думаю в последующем при подобной проблеме можно и не пожмотиться (ABBYY продают пакеты страниц, не обязательно прогу покупать) ради благой цели. В этот раз мне хватило 10 страниц - я отметил выборочные.

Answer 4 · 2021-02-11 20:33:06

Нашёл чуть более удобный способ для обывателей с Windows:

Необходимо экспортировать весь файл в PostScript (Encapsulated создаст для каждой страницы файл - нужен обычный). И далее собрать pdf заново.
Я это проделывал используя Acrobat DC и Acrobat Distiller.

Answer 5 · 2013-01-11 20:54:17

У вас текст в кодировке CP1252 (слово «Стохастический»). Вам нужно вытащить весь текст из pdf, изменить кодировку и снова сохранить в pdf. Форматирование скорее всего потеряется, я не спец. Возможно, как-то можно преобразовать кодировку в каком-либо редакторе pdf.

Answer 6 · 2013-01-11 21:06:36

Если по фразам — то переводить можно в декодере, а чтобы всю книжку — как-то тоже пробовал, ничего так и не получилось.

Answer 7 · 2014-05-14 00:15:37

File\Save as\выбираем формат\жмем справа "Settings"\если выбранный формат предполагает изменение кодировки, выбираем нужное (обычно UTF-8)\жмем Save\Ждем\Радуемся

Сменить кодировку текста pdf

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт