Как достать текст из самого вложенного элемента html (lxml lib)?

Question

Алекcандр @walkaway

Python
lxml

Как достать текст из самого вложенного элемента html (lxml lib)?

Как достать текст из самого вложенного элемента, при условии что текст может быть обернут во сколько угодно тегов или не обернут вообще.
Пример:

<span class='ocr_line' id='line_1_1' title="bbox 386 252 1468 539; baseline -0.006 5; x_size 377.55554; x_descenders 94.388885; x_ascenders 94.388885"><span class='ocrx_word' id='word_1_1' title='bbox 386 252 1468 539; x_wconf 70' lang='en' dir='ltr'>ENGLISH</span> 
     </span>
     <span class='ocr_line' id='line_1_2' title="bbox 675 528 1498 760; baseline -0.002 -1.185; x_size 308; x_descenders 77; x_ascenders 77"><span class='ocrx_word' id='word_1_2' title='bbox 675 528 1498 760; x_wconf 88' lang='en' dir='ltr'><strong>CRAZY</strong></span> 
     </span>

Я пока делаю так:

tree = html.fromstring(HTMLstring)
    for line in tree.xpath('.//span[@class="ocr_line"]'):

        for item in line.xpath('.//span[@class="ocrx_word"]/text()'):

Вторую ноду не получаю вообще, как исправить?

Вопрос задан более трёх лет назад
352 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- час назад
- 19 просмотров
0

ответов
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 3 часа назад
- 27 просмотров
1

ответ
Python

+1 ещё

Простой
Как сохранять сессию во Flask?
- 1 подписчик
- 9 часов назад
- 33 просмотра
0

ответов
Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- 11 часов назад
- 75 просмотров
2

ответа
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- 23 часа назад
- 131 просмотр
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- вчера
- 218 просмотров
3

ответа
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- вчера
- 134 просмотра
2

ответа
Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- 16 апр.
- 50 просмотров
1

ответ
Python

Простой
Выполнение парсинга странцы?
- 2 подписчика
- 16 апр.
- 129 просмотров
3

ответа
Python

Простой
Как исправить ошибку?
- 1 подписчик
- 16 апр.
- 106 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Настройка сервера

18 апр. 2024, в 21:56

2000 руб./за проект

Помощь с водпресс

18 апр. 2024, в 21:00

150 руб./за проект

Спарсить ссылки на все товары конкретного продавца в озон

18 апр. 2024, в 20:13

2000 руб./за проект

Answer 1 · 2017-03-19 11:34:23

если уверен, что текст только в итоговом вложенном

tree = html.fromstring(HTMLstring)
for line in tree.xpath('.//span[@class="ocr_line"]'):
    for item in line.xpath('.//text()'):
        print(item)

иначе - целься в текст

tree = html.fromstring(HTMLstring)
for line in tree.xpath('.//span[@class="ocr_line"]'):
    for item in line.xpath('.//text()[contains(.,"A")]'): # crAzy
        print(item)
    for item in line.xpath('.//text()[contains(.,"E")]'): # English
        print(item)

Как достать текст из самого вложенного элемента html (lxml lib)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт