Как спарсить определеный текст с помощью lxml?

Question

Василий Теркин @VasyanPro94

Sysadmin, python-dev

Как спарсить определеный текст с помощью lxml?

Ребята проблема.
Нужно спарсить текст статьи на одном сайте, статья имеет следующую структуру html:

<div>
	<p>Нужный текст</p>
	<p>Нужный текст</p>
	<aside>Ненужный элемент</aside>
	Нужный текст
	<p>Нужный текст</p>
	<p>Нужный текст</p>	
</div>

Использую python+lxml
Дело в том, что походу сайт криво сверстан, и нужный мне текст текст расположен без тега, но строго после тега aside.
Как мне отловить весь нужный текст?
Пробовал удалять ненужные ноды и парсить через xpath("//div//text()") но появляется все, кроме того который после тега aside.
Есть какие-то идеи?

Вопрос задан более трёх лет назад
1069 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Решения вопроса 2

3 комментария

Василий Теркин @VasyanPro94 Автор вопроса

Спасибо, это помогло.
Только не особо понял выражение [normalize-space(.) != '']
Что можно почитать для более глубокого понимания xpath?

Написано более трёх лет назад
Roman Fov @Roman-Fov

/div/aside/following-sibling::text() выбирает в данном случае 3 элемента.

count(/div/aside/following-sibling::text())
выдаёт 3

Это верное поведение тк в xml их действительно 3
1 - "Нужный текст"
2 - " " (два пробела перед "Нужный текст" на шестой строке)
3 - " " (два пробела перед "Нужный текст" на седьмой строке)

[normalize-space(.) != ''] - удаляет пробелы у элемента и проверяет строку на пустоту.

Почитать для понимания можно спецификацию.
Хотя ответы на stackoverflow гораздо интереснее. Каждый раз думаешь: "О, нифига как можно было!"

Написано более трёх лет назад
Василий Теркин @VasyanPro94 Автор вопроса

Спасибо, это очень пояснительно.

Написано более трёх лет назад

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- час назад
- 34 просмотра
0

ответов
Python

+2 ещё

Простой
Как сделать простой калькулятор в боте, через сбор данных от пользователя?
- 1 подписчик
- час назад
- 15 просмотров
0

ответов
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- 3 часа назад
- 40 просмотров
1

ответ
HTML

Простой
С чем может быть связано не правильный вывод изображений?
- 1 подписчик
- 3 часа назад
- 59 просмотров
1

ответ
JavaScript

+1 ещё

Средний
Как задать img источник из svg inline?
- 1 подписчик
- 6 часов назад
- 88 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- 7 часов назад
- 63 просмотра
2

ответа
JavaScript

+2 ещё

Простой
Смена стилей шапки сайта при скролле к определенному блоку? Стили должны применяться при скролле до блока и отменяться за его пределами?
- 1 подписчик
- 7 часов назад
- 47 просмотров
1

ответ
HTML

+1 ещё

Простой
Как Выделить слово приходящая из базы определенным цветом?
- 1 подписчик
- 7 часов назад
- 123 просмотра
0

ответов
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 9 часов назад
- 54 просмотра
0

ответов
JavaScript

+1 ещё

Средний
Как сделать так, чтобы клик по object передавался родителю?
- 1 подписчик
- 11 часов назад
- 96 просмотров
2

ответа
Показать ещё Загружается…

Тестировщик-стажёр

ITooLabs • Тула

от 35 000 до 40 000 ₽

Fullstack PHP Developer

Smapse Education

от 40 000 до 65 000 ₽

Trainee - IT Support

move2usajobs.com LLC • Лос-Анджелес

от 2 000 до 4 000 $

Верстка сайта и натяжка на wordpress

25 апр. 2024, в 19:22

18000 руб./за проект

Создать телеграмм бот на Python

25 апр. 2024, в 19:21

10000 руб./за проект

Разработка дизайна для мобильного приложения

25 апр. 2024, в 18:47

2795100 руб./за проект

Answer 1 · 2017-10-05 03:15:05

Roman Fov @Roman-Fov

Вот так можно

/div/aside/following-sibling::text()[normalize-space(.) != '']

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2017-10-06 17:43:46

Andrey Dugin @adugin Куратор тега Python

Можно просто скопировать нужный XPath прямо в браузере:

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2017-10-05 02:55:41

Alexej Simakov @lxsmkv

Test automation engineer

https://stackoverflow.com/questions/14093250/viewi...

Ответ написан более трёх лет назад

1 комментарий

Как спарсить определеный текст с помощью lxml?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт