Парсер HTML на PHP без регулярных выражений с ноля?

Question

R Z @sergey_zhuravlev_89

Парсер HTML на PHP без регулярных выражений с ноля?

Прежде всего, не нужно мне кидать ссылки на расширения PHP и уж тем более на тормозную либу Simple html dom и прочие!
Я не собираюсь городить велосипеды, а только хочу получить навыки и опыт путем реализации чего-то относительно простого.
Многие утверждают, что писать сложные парсеры на регэкспах - извращение. Я полностью согласен с теми людьми. И поэтому хочу понять как, к примеру, браузере анализируют код html, какие алгоритмы испольщуют и т.д. не на регэкспах ведь они это делают.

Какая последовательность анализа html страницы, средствами php, должна быть осущестлена? К примеру, получили мы страницу, очистили ее от всякого мусора, такого как лишние пробелы, переносы.... А дальше что делать? Страницы могут быть огромными и не хотелось бы держать их в памяти. Представим, что полученная страница валидная и мы записали ее в файл и т.к. само по себе содержимое уже имеет иерархию (html теги) то по какому алгоритму осуществлять поиск того или иного тега и все его содержимое? Или все это как то по другому должно работать? Если да, то как? Какие подходы и алгоритмы применять, куда копать?

Понимаю, что php плохо работает с бинарными файлами, но думаю с такой задачей он должен справиться.
Буду благодарен за всякий совет.

Вопрос задан более трёх лет назад
1262 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

5 комментариев

R Z @sergey_zhuravlev_89 Автор вопроса

Тот же самый лексер нужно писать чтением файла как бинарный и посимвольным сопоставлением?

Написано более трёх лет назад
Rsa97 @Rsa97

sergey_zhuravlev_89: А как угодно. Чаще всего реализуется смесь конечного автомата и простого сравнения строк. Для скорости файл считывается в оперативку и разбирается простым перемещением указателя на текущую точку разбора.

Написано более трёх лет назад
R Z @sergey_zhuravlev_89 Автор вопроса

Rsa97: а вот после разбора на лексемы, как потом все это записать обратно в файл? Я имею в виду, какая лучше структура данных подойлет, чтобы потом уже по этому файлу искать нужные узлы?

Написано более трёх лет назад
Rsa97 @Rsa97

Лексемы - это всего лишь входные данные для парсера, сами по себе они бесполезны. А вот выход парсера - синтаксическое дерево разбора - его уже можно использовать для поиска.

Написано более трёх лет назад
R Z @sergey_zhuravlev_89 Автор вопроса

Rsa97: спасибо. Буду копать, смотреть

Написано более трёх лет назад

3 комментария

R Z @sergey_zhuravlev_89 Автор вопроса

Не робят там ссылки

Написано более трёх лет назад
Максим Тимофеев @webinar Куратор тега PHP

sergey_zhuravlev_89: Отлично все работает

Написано более трёх лет назад
R Z @sergey_zhuravlev_89 Автор вопроса

Я уже написал для себя библиотеку (на регэкспах) , которая в 30 раз быстрее simple html dom и некорректный код разбирает куда лучше. Я не зочу останавливаться, хочу по человечески ошупать то, как все должно работать.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+2 ещё

Простой
Как сделать так, чтобы звезда падала только при скролле страницы?
- 1 подписчик
- 25 минут назад
- 21 просмотр
0

ответов
PHP

+1 ещё

Простой
Парсинг XML yandex?
- 1 подписчик
- час назад
- 36 просмотров
0

ответов
PHP

Простой
Заполнить не существующими датами из бд в графике apexcharts?
- 1 подписчик
- 3 часа назад
- 40 просмотров
1

ответ
PHP

+1 ещё

Средний
Почему одинаково-написанный curl запрос отдает разные ответы?
- 1 подписчик
- 12 часов назад
- 107 просмотров
0

ответов
PHP

+1 ещё

Простой
Как импортировать xlsx и csv в базу данных битрикса?
- 1 подписчик
- 12 часов назад
- 23 просмотра
1

ответ
PHP

Простой
Как работать с округлением в звездном рейтинге?
- 1 подписчик
- 17 часов назад
- 95 просмотров
1

ответ
PHP

Простой
Вывожу куки в корзине, куда записал товар, не выводит, в чем ошибка?
- 1 подписчик
- 19 часов назад
- 74 просмотра
0

ответов
JavaScript

+3 ещё

Средний
Какие есть способы организовать редкое добавление статей на сайт?
- 1 подписчик
- 20 часов назад
- 101 просмотр
1

ответ
PHP

Простой
Функция str_replace() не работает?
- 1 подписчик
- 23 часа назад
- 129 просмотров
3

ответа
JavaScript

+1 ещё

Простой
Как сделать авто подтверждение?
- 2 подписчика
- 23 часа назад
- 137 просмотров
1

ответ
Показать ещё Загружается…

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

M-Social Production • Брянск

от 70 000 ₽

PHP-разработчик

FunPay

от 300 000 до 500 000 ₽

Ищу СЕО специалиста на авто тематику

18 апр. 2024, в 11:21

15000 руб./за проект

Разработать модуль на Python для создания bitcoin транзакций

18 апр. 2024, в 11:20

5000 руб./за проект

Доработать калькулятор, исправить ошибки (PHP, YII2) Часть 3

18 апр. 2024, в 11:12

8200 руб./за проект

Answer 1 · 2017-02-21 17:10:11

Для начала нужно реализовать лексер - модуль, принимающий на вход текст на HTML и выдающий список лексем с их параметрами, например

<div id="test">
Привет
<div>

может быть превращено в

OPEN_TAG_START, DIV, ID, EQUALS, STRING(test), TAG_END, TEXT(Привет), 
CLOSE_TAG_START, DIV, TAG_END

Затем второй модуль, парсер, по полученным лексемам строит синтаксическое дерево. Это гораздо более сложная часть, особенно если учесть, что для HTML необходимо как-то обрабатывать некорректные варианты, наподобие <b><i>Тест</b></i>.
В результате должно получиться DOM-дерево, скомпилированное из исходного HTML.
Начать вникать в компиляторы можно по Книге красного дракона

Answer 2 · 2017-02-21 17:01:02

как, к примеру, браузере анализируют код html, какие алгоритмы испольщуют и т.д. не на регэкспах ведь они это делают.

Конечно же нет. И конечно же не на php это делают. Но это лирика, все что Вам надо - уметь читать и эта ссылка:
https://habrahabr.ru/post/174057/

ПС: Боюсь что разобравшись глубоко в теме, вы напишите все тот же SimpleHtmlDom. Громоздкий и тормозной. Если посмотреть на современные браузеры - увидите, что они кушают намного больше оперативки, чем замечательная SimpleHtmlDom.

Answer 3 · 2017-02-21 18:55:21

Представим, что полученная страница валидная и мы записали ее в файл и т.к. само по себе содержимое уже имеет иерархию (html теги) то по какому алгоритму осуществлять поиск того или иного тега и все его содержимое?

Единственный верный ответ: если структура документа древовидная - значит нахождение нужного узла - это обход такого "дерева".
Далее - мы используем знания из документации W3C для понимания всевозможных вариантов открытия и закрытия тега - "узла". Это будут наши виртуальные "скобки".

Проверяем валидность и что нет пересечений: внутренние теги узла всегда закрываются внутри этого узла и на том же уровне, на каком они были открыты.

Затем, преобразуем раскрытие "скобок" к представлению через "обратную польскую запись" раскрытия скобок даст нам путь к нужному узлу.
В итоге, получаем аналог XPath.

Добавлю, что свойства тегов непосредственно к составлению "дерева" и его превращению в подобие XPath - никак не относятся.
Свойства тегов - участвуют только в выборке нужного узла в дальнейшем.
Они относятся только к выборке.

Парсер HTML на PHP без регулярных выражений с ноля?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт