Как в XPATH получить содержимое тега вместе с внутренними тегами?

Question

Daniel Reed @Remasik

Как в XPATH получить содержимое тега вместе с внутренними тегами?

Добрый день, есть задача вытащить из html страницы полное содержимое тега, вместе с внутренними тегами.
Например:

<html>
 <body>
  <div class="post">
   text <p> text </p> text <a> text </a>
   <span> text </span>
  <div class="post">
   another text <p> text </p>
 </body>
</html>

И получить нужно первый <div class="post">

text <p> text </p> text <a> text </a>
   <span> text </span>

Пока получается доставать только текст, вот этим выражением (здесь еще игнорирование тега script есть):

(//div[@class="post"])[1]/descendant-or-self::*[not(name()="script")]/text()

Результат: text text text text text

Если использовать node(), то каждый тег возвращается в виде объекта и как все это в строку в виде html превратить не знаю. Возвращается, что-то типа этого (Вот эти <Element p at 0xb62f939c> как преобразовать обратно, не знаю):

[<Element div at 0xb648193c>, u'\u0420\u0430\u0431\u043e\u0442\u0430 \u0441 \u0441\u0443\u0431\u0442\u0438\u0442\u0440\u0430\u043c\u0438', <Element p at 0xb62f939c>, ...]

Есть вариант использовать BeautifulSoup, но я все еще надеюсь на xpath, помогите.

soup = BeautifulSoup(html)
text = [child.strip() if isinstance(child, str) else str(child) for child in soup.find('div', attrs={'class': 'post'})]
text = ''.join(text)
print text

Вопрос задан более трёх лет назад
11113 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

3 комментария

Daniel Reed @Remasik Автор вопроса

Пробовал, ни на один html скачанный с помощью requests не отработал (yandex.ru, любой топик rutracker.org), ему нужен безошибочный html?

Написано более трёх лет назад
Daniel Reed @Remasik Автор вопроса

Если использовать parse, то работает прекрасно, спасибо. Но в моем случае не сработает, так как мне html будет приходить в виде строки.

Написано более трёх лет назад
Булат Курбангалиев @ilov3

там есть различные методы составления парсинга html lxml.de/lxmlhtml.html
в вашем случае, если результат приходит в виде строки, то делайте так: html.fromstring(html_string)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- час назад
- 32 просмотра
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 4 часа назад
- 47 просмотров
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- 7 часов назад
- 40 просмотров
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 14 часов назад
- 45 просмотров
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 23 часа назад
- 159 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 23 часа назад
- 25 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- вчера
- 35 просмотров
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 137 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 94 просмотра
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 208 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Лидсканнер\парсер для Telegram по поиску заказов по ключевым словам

25 апр. 2024, в 14:26

6000 руб./за проект

Разработать дизайн продающего лендинга

25 апр. 2024, в 14:21

15000 руб./за проект

Шаблон WP - настройка

25 апр. 2024, в 14:07

20000 руб./за проект

Answer 1 · 2015-12-21 17:25:14

Припоздал конечно.. :)

from lxml.html import fromstring
string = '''<html>
 <body>
  <div class="post">
   text <p> text </p> text <a> text </a>
   <span> text </span>
  <div class="post">
   another text <p> text </p>
 </body>
</html>'''
html = fromstring(string)
post = html.xpath('.//div[@class="post"]')[0].text_content()
print post

Answer 2 · 2015-04-22 14:24:14

Игорь Лютоев @loader777

Python/django разработчик

а /html() - не работает?

Ответ написан более трёх лет назад

3 комментария

Answer 3 · 2015-04-22 14:39:19

from lxml import etree

tree = etree.fromstring('<html><head><title>foo</title></head><body><div class="name"><p>foo</p></div><div class="name"><ul><li>bar</li></ul></div></body></html>')
for elem in tree.xpath("//div[@class='name']"):
     # pretty_print ensures that it is nicely formatted.
     print etree.tostring(elem, pretty_print=True)

from lxml import etree, html

tree = html.parse('http://rutracker.org/forum/index.php')
for elem in tree.xpath("//div[@class='category']"):
     print html.tostring(elem, pretty_print=True)

"Ваша Галя балувана"(с)

from StringIO import StringIO
from lxml import etree, html
import requests

c = requests.get('http://rutracker.org/forum/index.php').content

tree = html.parse(StringIO(s))

for elem in tree.xpath("//div[@class='category']"):
     print html.tostring(elem, pretty_print=True)

Как в XPATH получить содержимое тега вместе с внутренними тегами?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт