@khodos_dmitry

Почему часть страницы парсится нормально, а часть кракозябрами?

Пытаюсь спарсить один сайт. Часть данных с него нормально скачиваются, но данные с некоторых блоков парсятся вот так:
5c332fba01601316386491.png
$spravka = iconv("windows-1251", "utf-8", $spravka); - после этого вообще ничего не остается.
  • Вопрос задан
  • 59 просмотров
Решения вопроса 1
@andiges
Я кажется добрался до сути проблемы. Часть текста написана чистым utf8, часть написана при помощи numerical HTML encoding of the Unicode character.
Пример:
UTF8: Сбер
HTML: Сбер = Сбер

$doc->loadHTML(mb_convert_encoding($body, 'HTML-ENTITIES', 'UTF-8'));
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через TM ID
Похожие вопросы