Как научиться писать парсеры?

Question

beduin01 @beduin01

Как научиться писать парсеры?

Есть очень нестандартные документы XML с нерегулярной структурой.
Есть набор тегов которые я ожидаю в них найти.
Целевые данные могут иметь произвольную вложенность и высокую вариативность в названиях. Некоторые данные могут быть вложенными.
Заранее определить структуру всех документов нельзя.
Вопрос какой подход стоит использовать? Я слышал что тут нужен аналог стейт-машины, но может еще есть подходы? И как вообще все должно быть организовано?

Вопрос задан более трёх лет назад
3017 просмотров

Комментировать

Подписаться 13 Простой Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+2 ещё

Средний
Запросы soap в инфоклинику на php?
- 1 подписчик
- вчера
- 134 просмотра
2

ответа
Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 91 просмотр
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 19 апр.
- 65 просмотров
0

ответов
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 19 апр.
- 83 просмотра
2

ответа
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 19 апр.
- 25 просмотров
0

ответов
PHP

+1 ещё

Простой
Парсинг XML yandex?
- 1 подписчик
- 18 апр.
- 116 просмотров
0

ответов
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 17 апр.
- 152 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- 17 апр.
- 33 просмотра
1

ответ
Парсинг

Средний
Как парсить сайты на Wordpress в определённой доменной зоне?
- 1 подписчик
- 16 апр.
- 26 просмотров
3

ответа
Python

+1 ещё

Простой
Как вывести конкретное значение из класса в python?
- 1 подписчик
- 14 апр.
- 123 просмотра
1

ответ
Показать ещё Загружается…

Веб-разработка и управление IT в Sortage

Sortage • Москва

от 180 000 ₽

Платформенный инженер

ИТ Плюс • Пермь

от 250 000 ₽

Senior Backend Engineer в агрегатор нейросетей (150к DAU)

NN Media

от 300 000 до 500 000 ₽

Приложение или модуль для Wordpress для учета поездок по QR

25 апр. 2024, в 03:58

10000 руб./за проект

Ошибка в 1с при выгрузке товаров на сайт на Битриксе

25 апр. 2024, в 03:08

3000 руб./за проект

Создание и публикация короткого (reels) UGC-видео на YouTube-канале

25 апр. 2024, в 01:46

500 руб./за проект

Answer 1 · 2019-08-15 11:17:42

XML парсим любой библиотекой. Получаем дерево разбора.
https://pep8.ru/doc/dive-into-python-3/14.html
Дальше начинаете обходить дерево и для каждога узла(node) проверять подходит ли он вам.
https://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%85%D...
В функции проверки и должна быть вся магия. Возможно вы сможете придумать эвристическое правило от разных параметров. Например:
*путь от корня (root/part/segment/item)
*имя тега
*значения параметров тега
*имена тегов-детей
*...
При необходимости можно пытаться ускорить процесс, если о данных что-то известно. Так можно не обходить все дерево, а отбрасывать его части если мы поняли что это не то что нам нужно.

Если данных очень много и вариативность очень большая (например ищем рекламу на веб страницах) можно заняться машинным обучением. Это отдельная сложная тема выходящая за рамки вопроса.

Answer 2 · 2019-08-15 23:48:24

Antonio Solo @solotony

покоряю пик Балмера

Beautiful Soup

Ответ написан более трёх лет назад

4 комментария

Как научиться писать парсеры?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт