Как получить plain text из файла .doc на php?

Question

desperate_one @desperate_one

PHP
Word

Как получить plain text из файла .doc на php?

Приветствую! Уже месяц бьюсь с кодом для чтения текста из файлов разных форматов, сейчас получается доставать чистый текст только из pdf, txt, docx. Сейчас тормозит всю работу формат .doc своим файловым содержанием. Прогуглил сотни запросов и ни одно решение что дают в сети не помогло, есть такое решение:

function parseWord($userDoc) 
{
    $fileHandle = fopen($userDoc, "r");
    $line = @fread($fileHandle, filesize($userDoc));   
    $lines = explode(chr(0x0D),$line);
    $outtext = "";
    foreach($lines as $thisline)
      {
        $pos = strpos($thisline, chr(0x00));
        if (($pos !== FALSE)||(strlen($thisline)==0))
          {
          } else {
            $outtext .= $thisline." ";
          }
      }
     $outtext = preg_replace("/[^a-zA-Z0-9\s\,\.\-\n\r\t@\/\_\(\)]/","",$outtext);
    return $outtext;
}

UPD: Код выше вообще неправильно скинул, но даже если в условие парсера пихнуть кириллицу, проблему в нём это не решит, так что в любом случае проблема не в этом, есть ещё один скрипт, вроде он более правильнее разбирает файл .doc, но всё также не поддерживает кириллицу. Почему я говорю правильнее, потому что код выше возвращает неверное количество символов и даже латинские символы неверные, а вот следующий код возвращает верное количество символов, даже абзацы сохраняет, но любые символы кроме латинских букв передаёт как квадратики.

function read_doc_file($filename) {
     if(file_exists($filename))
    {
        if(($fh = fopen($filename, 'r')) !== false ) 
        {
           $headers = fread($fh, 0xA00);

           // 1 = (ord(n)*1) ; Document has from 0 to 255 characters
           $n1 = ( ord($headers[0x21C]) - 1 );

           // 1 = ((ord(n)-8)*256) ; Document has from 256 to 63743 characters
           $n2 = ( ( ord($headers[0x21D]) - 8 ) * 256 );

           // 1 = ((ord(n)*256)*256) ; Document has from 63744 to 16775423 characters
           $n3 = ( ( ord($headers[0x21E]) * 256 ) * 256 );

           // 1 = (((ord(n)*256)*256)*256) ; Document has from 16775424 to 4294965504 characters
           $n4 = ( ( ( ord($headers[0x21F]) * 256 ) * 256 ) * 256 );

           // Total length of text in the document
           $textLength = ($n1 + $n2 + $n3 + $n4);

           $extracted_plaintext = fread($fh, $textLength);

           // simple print character stream without new lines
           //echo $extracted_plaintext;

           // if you want to see your paragraphs in a new line, do this
           return nl2br($extracted_plaintext);
           // need more spacing after each paragraph use another nl2br
        }
    }   
    }

Пробовал phpword, работает только с docx, который можно читать и кодом в 10 строк.
Но кириллицу оно не принимает, а мне нужна поддержка всех языков. Есть ли у кого нибудь решение или хотя бы совет как придти к нему, как получить вообще просто plain text из .doc файлов?

Вопрос задан более трёх лет назад
1592 просмотра

6 комментариев

Подписаться 10 Простой 6 комментариев

Дмитрий @Compolomus Куратор тега PHP

Используй ~~силу~~готовую библиотеку

Написано более трёх лет назад
Makssof @makssof

a-zA-Z
Интересно, почему же "кириллицу оно не принимает"

Написано более трёх лет назад
Daria Motorina @glaphire Куратор тега PHP

desperate_one, регулярка не видит кириллицу, потому что A-Za-z покрывает только стандартную латиницу, чтобы покрывало и латиницу, и кириллицу, надо писать /[A-Za-zА-Яа-я]/u (примерно), почитайте подробнее

Написано более трёх лет назад
Kovalsky @lazalu68

Вот здесь можно найти интересную инфу по теме:
https://stackoverflow.com/questions/188452/reading...
www.winfield.demon.nl - читалка для doc файлов, возможно её можно использовать как утилиту для чтения

Написано более трёх лет назад
Сергей c0re @erge

не совсем понятно, а точнее вообще не понятно что вы здесь представили...
.doc - это бинарник, его просто так не погрепаешь, нужно формат файла знать.

Пробовал phpword, работает только с docx

а можно ваш экземпляр кода посмотреть как вы пробовали PHPWord'ом открывать??
потому как в PHPWord Features указано что читать текст он как раз вроде как может.

Написано более трёх лет назад
Сергей c0re @erge

но любые символы кроме латинских букв передаёт как квадратики.

вы их в каком виде пробовали читать??
там все кроме ANSI идет в кодировке - UTF-16LE / wiki
Вам необходимо полученный текст сконвертировать в нужную вам кодировку.
гуглите например - php convert UTF-16LE to UTF-8

Написано более трёх лет назад

Решения вопроса 1

4 комментария

desperate_one @desperate_one Автор вопроса

Вы просто гений! Недели головоломок решены. Правда есть косяк, выводятся непонятные символы на том месте, где в самом файле этого нет. В любом случае спасибо огромное Павлу!

Написано более трёх лет назад
Павел Чесноков @cesnokov
desperate_one,
Как продолжение можно выфильтровать все не нужные символы:
$extracted_plaintext = mb_convert_encoding( $extracted_plaintext, 'UTF-8', 'UTF-16LE' ); $extracted_plaintext = preg_replace('/[^0-9A-Za-zĄ-Žą-žА-Яа-яЁё.,!? \n\r]/u', '', $extracted_plaintext);
Написано более трёх лет назад
desperate_one @desperate_one Автор вопроса

Павел Чесноков, спасибо. Фильтр тут не нужен, просто непонятно откуда вывел код этот кусок текста.

Написано более трёх лет назад
Павел Чесноков @cesnokov

desperate_one, это какой-то элемент: картинка, таблица, что-то такое.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

Простой
Каким образом формируются имена файлов из набора букв и цифр?
- 1 подписчик
- 9 часов назад
- 72 просмотра
2

ответа
PHP

Простой
Почему не применяются настройки xdebug.ini после изменения?
- 1 подписчик
- 20 часов назад
- 36 просмотров
1

ответ
PHP

+1 ещё

Простой
Как получить публичную ссылку на изображение с чата Телеграм?
- 1 подписчик
- 20 часов назад
- 63 просмотра
1

ответ
PHP

+1 ещё

Простой
Почему перестали отображаться новости на детальной странице новостей?
- 1 подписчик
- 21 час назад
- 57 просмотров
1

ответ
PHP

Простой
Почему ломается передача по ссылке в foreach с указанием оператора опциональной последовательности для массива?
- 1 подписчик
- 23 часа назад
- 64 просмотра
1

ответ
PHP

+1 ещё

Простой
Почему ошибка 502 после миграции с PHP 8.2 на PHP 8.3?
- 1 подписчик
- вчера
- 118 просмотров
2

ответа
PHP

+1 ещё

Средний
Как получить телефон из Google OAuth 2.0 API?
- 1 подписчик
- вчера
- 52 просмотра
1

ответ
PHP

+1 ещё

Средний
Как запускать PHP в терминале Netbeans?
- 2 подписчика
- вчера
- 220 просмотров
0

ответов
PHP

+1 ещё

Простой
Где ошибка в коде при создании древа в sql из файла?
- 1 подписчик
- вчера
- 97 просмотров
0

ответов
PHP

+1 ещё

Простой
Как в php формировать ответ на AJAX XMLHttpRequest запрос?
- 1 подписчик
- 23 апр.
- 105 просмотров
0

ответов
Показать ещё Загружается…

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

Midlle PHP developer (backend)

ИТЦ Аусферр • Магнитогорск

от 100 000 до 160 000 ₽

Настроить бота тг

26 апр. 2024, в 10:01

500 руб./за проект

Django

26 апр. 2024, в 09:18

500 руб./в час

Devops для видео сервиса

26 апр. 2024, в 06:46

1500 руб./в час

Используй ~~силу~~готовую библиотеку
a-zA-Z
Интересно, почему же "кириллицу оно не принимает"
desperate_one, регулярка не видит кириллицу, потому что A-Za-z покрывает только стандартную латиницу, чтобы покрывало и латиницу, и кириллицу, надо писать /[A-Za-zА-Яа-я]/u (примерно), почитайте подробнее
Вот здесь можно найти интересную инфу по теме:
https://stackoverflow.com/questions/188452/reading...
www.winfield.demon.nl - читалка для doc файлов, возможно её можно использовать как утилиту для чтения
не совсем понятно, а точнее вообще не понятно что вы здесь представили...
.doc - это бинарник, его просто так не погрепаешь, нужно формат файла знать.

Пробовал phpword, работает только с docx

а можно ваш экземпляр кода посмотреть как вы пробовали PHPWord'ом открывать??
потому как в PHPWord Features указано что читать текст он как раз вроде как может.
но любые символы кроме латинских букв передаёт как квадратики.

вы их в каком виде пробовали читать??
там все кроме ANSI идет в кодировке - UTF-16LE / wiki
Вам необходимо полученный текст сконвертировать в нужную вам кодировку.
гуглите например - php convert UTF-16LE to UTF-8

Answer 1 · 2019-10-08 22:47:05

Тема очень интересная и пришлось разобраться до конца.
До полного счастья вам не хватает этого:

$extracted_plaintext = mb_convert_encoding( $extracted_plaintext, 'UTF-8', 'UTF-16LE' );

И всё вместе будет:

function read_doc_file($filename) {
    if (file_exists($filename)) {
        if (($fh = fopen($filename, 'r')) !== false) {
            $headers = fread($fh, 0xA00);

            // 1 = (ord(n)*1) ; Document has from 0 to 255 characters
            $n1 = ( ord($headers[0x21C]) - 1 );

            // 1 = ((ord(n)-8)*256) ; Document has from 256 to 63743 characters
            $n2 = ( ( ord($headers[0x21D]) - 8 ) * 256 );

            // 1 = ((ord(n)*256)*256) ; Document has from 63744 to 16775423 characters
            $n3 = ( ( ord($headers[0x21E]) * 256 ) * 256 );

            // 1 = (((ord(n)*256)*256)*256) ; Document has from 16775424 to 4294965504 characters
            $n4 = ( ( ( ord($headers[0x21F]) * 256 ) * 256 ) * 256 );

            // Total length of text in the document
            $textLength = ($n1 + $n2 + $n3 + $n4);

            $extracted_plaintext = fread($fh, $textLength);
            $extracted_plaintext = mb_convert_encoding( $extracted_plaintext, 'UTF-8', 'UTF-16LE' );
            return nl2br($extracted_plaintext);

        } else {
            return FALSE;
        }
    } else {
        return FALSE;
    }
}

$text = read_doc_file('test.doc');

А пока изучал, нашёл интересный тест, может пригодиться:

$text = "A strange string ø, æ, å, ж, п, ą, ū, ė, …"; 
foreach(mb_list_encodings() as $chr){ 
    echo mb_convert_encoding( $text, 'UTF-8', $chr ) . " : " . $chr . "<br><br>";    
}

Answer 2 · 2019-10-09 10:39:00

developer007 @developer007

А если сделать проще и установить catdoc?

catdoc foo.doc > foo.txt

Ответ написан более трёх лет назад

Комментировать

Как получить plain text из файла .doc на php?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт