Есть ли способ удаления лишних закрывающих тегов при парсинге?

Question

Хуршед Абдужалил @akhur

Есть ли способ удаления лишних закрывающих тегов при парсинге?

Делаю парсинг одного сайта, смотрю много закрывающих тегов </div> из за чего моя верстка тоже слетает.
Пробовал так

$content = preg_replace("/<\/?div[^>]*\>/i", "", $content);

не получается... Может кто сталкивался?

Вопрос задан более трёх лет назад
477 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+1 ещё

Средний
Как передать значение из одной страницы в скрипт формы, чтобы результат работы этого скрипта вывести в новой вкладке?
- 1 подписчик
- 5 часов назад
- 30 просмотров
3

ответа
Python

+2 ещё

Простой
Почему код не выводит аттрибут title (selenium, python)?
- 1 подписчик
- 9 часов назад
- 40 просмотров
0

ответов
PHP

+1 ещё

Простой
Как локализовать дату регистрации пользователя wordpress?
- 1 подписчик
- 12 часов назад
- 76 просмотров
3

ответа
PHP

Простой
Как стать oembed провайдером?
- 1 подписчик
- 13 часов назад
- 47 просмотров
0

ответов
PHP

Простой
Вывод определенной информации на страницах с конкретными именами в адресе URL с помощью strpos?
- 1 подписчик
- вчера
- 76 просмотров
2

ответа
PHP

Средний
У меня php скрипт не обрабатывает до конца данные когда его веб-хук со стороннего ресурса повторно запускает, что сделать чтобы обрабатывал?
- 1 подписчик
- вчера
- 65 просмотров
2

ответа
PHP

+2 ещё

Простой
Где хранится скрипт блокировки входа в Joomla 2?
- 1 подписчик
- вчера
- 54 просмотра
1

ответ
PHP

Простой
Как получить константы в php из другого файла в классе?
- 1 подписчик
- 05 мая
- 90 просмотров
1

ответ
Парсинг

Простой
Как «просканировать» сайт на картинки в директории?
- нет подписчиков
- 05 мая
- 50 просмотров
2

ответа
PHP

Простой
Как решать эту проблему GD?
- 1 подписчик
- 04 мая
- 79 просмотров
1

ответ
Показать ещё Загружается…

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

FunPay

от 300 000 до 500 000 ₽

Помощь с интеграцией Hubspot CRM Starter/Airtable с Google Looker

08 мая 2024, в 02:43

2000 руб./за проект

Помощь с получением Google blue checkmark для доменного имени/ящиков

08 мая 2024, в 02:35

2000 руб./за проект

Помощь с выбором и настройкой Lead Management Tool как Airtable

08 мая 2024, в 02:29

5000 руб./за проект

Answer 1 · 2018-02-01 12:15:52

novrm @novrm

Вам нужно фильтр html-разметки.
При правильной настройке htmlpurifier - подойдет.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2018-02-01 13:17:17

А можно парсить через DOMDocument и получать содержимое body без тегов

$url = 'http://yandex.ru';
$result = file_get_contents($url);

$dom = new \DOMDocument();
libxml_use_internal_errors(true);
/* По-умолчанию loadHTML использует iso-8859-1, поэтому явно указываем преобразование */
$dom->loadHTML(mb_convert_encoding($result, 'HTML-ENTITIES', 'UTF-8'));
libxml_use_internal_errors(false);
$bodyContent = $dom->getElementsByTagName('body')[0]->textContent;

В тексте останутся ненужные части, типа скриптов и стилей, но можно перед созданием DOMDocument регуляркой убрать их из html.

Если не нужен целиком body, можно получать контент отдельных элементов

Есть ли способ удаления лишних закрывающих тегов при парсинге?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт