Just123i
@Just123i

Чем парсить невалидный HTML?

Подскажите пжл, чем парсить невалидный HTML ?
Раньше всегда Simple HTML DOM использовал, результат\скорость устраивали, но он с невалидным HTML не работает - уходит в рекурсию.
  • Вопрос задан
  • 712 просмотров
Пригласить эксперта
Ответы на вопрос 3
DrunkMaster
@DrunkMaster
Регулярками очевидно же
Ответ написан
@aleksey_komyakov
Однозначно сначала Tidy. Отлично исправляет весь невалид
Ответ написан
Комментировать
glebovgin
@glebovgin
Full Stack Web Developer
Tidy. И не нужно искать альтернатив.
Вот, к примеру, один из моих вариантов использования.
$options = 	array("indent" => false, 
				"output-xml" => true, 
				"clean" => true,
				"drop-proprietary-attributes" => true,
				"drop-font-tags" => true,
				"drop-empty-paras" => true,
				"hide-comments" => true,
				"join-classes" => true,
				"join-styles" => true,
				"show-body-only" => false); 
							
$tidy = new tidy();
$str = $tidy->parseString($page, $options, 'utf8'); // $page содержит невалидный html
$tidy->cleanRepair();
echo $tidy; // валидный html

Со списком опцийсоветую поиграться самостоятельно.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы