Как в grab для python, исключить определенную ноду из обработки?

Question

Тимофей Дергачёв @exeto

front-end developer

Как в grab для python, исключить определенную ноду из обработки?

Есть такой код:

from grab import Grab

g = Grab()
g.go('http://habrahabr.ru/post/241889/')
xpath = '//div[contains(@class, "content_left")]//div[contains(@class, "content")]'
print(g.doc.select(xpath).html())

1. Как исключить, к примеру, //div[contains(@class, "polling")]?

2. Как обработать две ноды? Так //div | //span обрабатывается только первая.

Вопрос задан более трёх лет назад
5094 просмотра

2 комментария

Подписаться 3 Оценить 2 комментария

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 1 подписчик
- 56 минут назад
- 7 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- час назад
- 7 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 2 часа назад
- 14 просмотров
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- 23 часа назад
- 110 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- 23 часа назад
- 78 просмотров
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- вчера
- 187 просмотров
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- вчера
- 142 просмотра
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- вчера
- 165 просмотров
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 2 подписчика
- вчера
- 33 просмотра
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 3 подписчика
- 22 апр.
- 1997 просмотров
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Натянуть верстку Опенкарт

24 апр. 2024, в 15:34

20000 руб./за проект

SEO с опытом в контентных проектах (СМИ)

24 апр. 2024, в 15:32

130000 руб./за проект

Видеомонтаж трэвел-влогов на Youtube на постоянной основе

23 апр. 2024, в 11:13

10000 руб./за проект

Лучше задавать вопросы в https://groups.google.com/forum/#!forum/python-grab
Там сидит автор библиотеки.
1. Что значит исключить? Внутри xpath'а содержится див с классом polling? И его надо исключить из объекта полученного в .doc.select(xpath).html()? Тогда регулярки.
2. Какой именно код обрабатывает только 1? Что значит обработать 2 ноды? По отдельности?
@FireGM: уже понял что лучше там было задать.
1. Да, именно это нужно, думал есть более правильный способ.
2. Вот тут можно посмотреть что я имею ввиду.

Answer 1 · 2014-11-02 01:01:24

1. Решение:

from grab import Grab
from grab.tools.lxml_tools import drop_node

url = 'http://habrahabr.ru/post/241889/'
xpath = '//div[contains(@class, "content_left")]//div[contains(@class, "content")]'
drop = '//div[contains(@class, "polling")]'

g = Grab()
g.go(url)
page = g.doc.select(xpath)
drop_node(page.node(), drop)

for element in page:
    print(element.html())

2. Не знаю почему я сразу не обратил внимание, что grab.doc.select() возвращает итерируемый объект. Вот решение:

from grab import Grab

g = Grab()
g.go(url)
xpath = '//div | //span'

for element in g.doc.select(xpath):
    print(element.html())

Как в grab для python, исключить определенную ноду из обработки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт