Проблема с кодировкой в Simple HTML DOM Parser?

Question

Adel1ne @Adel1ne

Проблема с кодировкой в Simple HTML DOM Parser?

Здравствуйте!

Столкнулся с проблемой кодировки при использовании PHP Simple HTML DOM Parser.
Вытаскивают html-текст из абзацев при помощи функции innertext(). В тексте могут быть тэги,
например текст1 или вообще ссылка куда-то

Ну а теперь к сути, вот код:

foreach ($html->find('div[class="text"] p') as $text) {
$fulltext .= iconv("Windows-1251", "UTF-8", $text->innertext());
}

Помимо этого на странице много чего еще вытаскивается через plaintext.

Проблема в следующем:
Страница, которую я парсю, имеет кодировку Windows-1251, мой код (index.php) и сам
simple_html_dom.php в кодировке UTF-8.То, что вытаскивается через plaintext, отображается нормально, а вот innertext() похоже вытаскивает информацию в кодировке страницы, то есть, в моем случае - Windows-1251.
ОК, делаем конвертацию с помощью iconv и, по идее, все должно быть отлично. Большая часть текста отображается корректно в кодировке UTF-8, однако засада в том, что текст, заключенный в тэги почему то отображается кракозябрами. То ли на него не срабатывает iconv, то ли еще что, но как победить эту штуку, я не понял. Причем если сделать кодировку своей страницы в Windows-1251, это все равно не поможет.

Есть идеи?

Вопрос задан более трёх лет назад
5206 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Решения вопроса 1

3 комментария

Adel1ne @Adel1ne Автор вопроса

Не подскажите, как это сделать?

Написано более трёх лет назад

Vit @fornit1917

Adel1ne:

$str = file_get_contents('http://.....');
$str = iconv(....);
$html = str_get_html($str);

Написано более трёх лет назад

Adel1ne @Adel1ne Автор вопроса

Vit: Большое спасибо.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Веб-разработка

Простой
Как обойти блокировку просмотра видео?
- 1 подписчик
- 23 минуты назад
- 21 просмотр
3

ответа
Веб-разработка

+1 ещё

Простой
Для чего такие сайты?
- 1 подписчик
- 5 часов назад
- 90 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Как отсортировать в ХТМЛ по дате рождения от младшего к старшему, а так же, нумерацию их 1,2,3,4. Чтобы можно было потом добавить еще людей?
- 1 подписчик
- 8 часов назад
- 46 просмотров
1

ответ
HTML

+1 ещё

Простой
При загрузке картинки этот блок не имеет размера, как исправить?
- 1 подписчик
- 11 часов назад
- 46 просмотров
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 11 часов назад
- 16 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Пустая страница, ошибок нет. JS. В чем проблема?
- 1 подписчик
- 12 часов назад
- 159 просмотров
1

ответ
HTML

+1 ещё

Простой
Как кодировать кириллицу в поле data?
- 1 подписчик
- 17 часов назад
- 43 просмотра
1

ответ
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 17 часов назад
- 58 просмотров
2

ответа
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 21 час назад
- 12 просмотров
0

ответов
HTML

+1 ещё

Простой
Как в теге select один символ сделать другого цвета?
- 1 подписчик
- вчера
- 87 просмотров
1

ответ
Показать ещё Загружается…

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

M-Social Production • Брянск

от 70 000 ₽

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

Сканер коэффициентов в букмекерских конторах

20 апр. 2024, в 08:39

100000 руб./за проект

Доработать бота

20 апр. 2024, в 08:24

1500 руб./за проект

Разработать интранет сайт (корпоративный портал)

20 апр. 2024, в 07:24

100000 руб./за проект

Answer 1 · 2015-04-07 13:26:36

Поместите весь контент html-страницы в строковую переменную, сконвертируйте в нужную кодировку (UTF-8) и только потом уже скармливайте ее в simple html dom parser. Я именно так всегда и делал и никогда не испытывал никаких проблем.

Answer 2 · 2015-04-07 22:36:41

Adel1ne @Adel1ne Автор вопроса

Vit Vit , Поместите весь контент html-страницы в строковую переменную

Не подскажете, как это сделать?

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2016-10-10 17:23:34

Евгений @Jekshmek

кодер штродер

$d= mb_convert_encoding($d, 'utf-8', mb_detect_encoding($d));

Ответ написан более трёх лет назад

Комментировать

Проблема с кодировкой в Simple HTML DOM Parser?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт