VasyanPro94
@VasyanPro94
Sysadmin, python-dev

Как спарсить определеный текст с помощью lxml?

Ребята проблема.
Нужно спарсить текст статьи на одном сайте, статья имеет следующую структуру html:
<div>
	<p>Нужный текст</p>
	<p>Нужный текст</p>
	<aside>Ненужный элемент</aside>
	Нужный текст
	<p>Нужный текст</p>
	<p>Нужный текст</p>	
</div>

Использую python+lxml
Дело в том, что походу сайт криво сверстан, и нужный мне текст текст расположен без тега, но строго после тега aside.
Как мне отловить весь нужный текст?
Пробовал удалять ненужные ноды и парсить через xpath("//div//text()") но появляется все, кроме того который после тега aside.
Есть какие-то идеи?
  • Вопрос задан
  • 850 просмотров
Решения вопроса 2
@Roman-Fov
Вот так можно
/div/aside/following-sibling::text()[normalize-space(.) != '']
Ответ написан
adugin
@adugin Куратор тега Python
Можно просто скопировать нужный XPath прямо в браузере:
59d7969bef299930686727.png
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы