Как распарсить сайт на Питоне?

Question

AntonIgin @AntonIgin

Как распарсить сайт на Питоне?

Делаю сейчас парсинг по одному тутору. Вот код, который набрал:

import requests
from bs4 import BeautifulSoup

def main(url):
    print(parse(get_html(url)))
    
def get_html(url):
    response = requests.get(url)
    return response.text
def parse(html):
    soup = BeautifulSoup(html, 'lxml')
    table = soup.find_all('div', class_='listing__item  premium js-productBlock')
    return table
    
url = 'http://irr.ru/real-estate/apartments-sale/'

main(url)

В ответ пустой список. Не понимаю почему - я же вижу, что класс у контейнеров называется listing__item premium js-productBlock, но почему-то ни одного не находит. Что я делаю не так?

Вопрос задан более трёх лет назад
653 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

5 комментариев

AntonIgin @AntonIgin Автор вопроса
а как быть, если класс составной? Я пробовал так:
table = soup.find_all('div', class_='listing__item.js-productBlock.js-similarAdvert')

Не сработало - пустой список. Как быть?
Написано более трёх лет назад
Руслан @rOOse

AntonIgin: зачем вам указывать много классов? Ищите по одному из списка, по listing__item

Написано более трёх лет назад
AntonIgin @AntonIgin Автор вопроса

Руслан: Потому что с listing_item там появляется множество лишних контейнеров. Но я нашел в документации альтернативу - поиск по атрибутам. Там у контейнеров объявления есть свойства data-qa=listing__item, я учел это при фильтрации и получил то, что похоже на нужный результат. Ну, как мне кажется.

Спасибо за отклик. :-)

Написано более трёх лет назад
Руслан @rOOse

AntonIgin: можно и по атрибуту, на будущее(если атрибута не будет =) ): все равно потом в цикле что-то с результатами делать, можно просто проверить наличие другого класса и пропустить его обработку.

Написано более трёх лет назад
AntonIgin @AntonIgin Автор вопроса
Руслан: еще такой вопрос: а как отфильтровать уже отфильтрованный код?

Пробовал делать так, выдает ошибку:
table = soup.find_all('div', class_='listing__itemTitle').find_all('span')

И еще вопрос: а как не выделить нужное, а отсеять лишнее? Допустим, я хочу получить надпись, но она на странице не обернута ни в какие теги. Мне кажется, в таких случаях надо отсекать все остальное, чтобы осталась нужная надпись. Есть ли такая функция в BS4?

P.S. Уже разобрался: цикл for и find выручают.
Написано более трёх лет назад

5 комментариев

AntonIgin @AntonIgin Автор вопроса
Так вот же:
soup.find_all("a", class_="sister")
И тэг, и класс.

Попробовал у себя сделать так:
table = soup.find_all(class_='listing__item premium js-productBlock')

Все равно пустой список. Я вас, видимо, не так понимаю. Пробовал просто оставить "listing__item" и ".listing__item", но в первом случае вообще выдает ошибку кодировки, а во втором опять пусто.
Написано более трёх лет назад
AntonIgin @AntonIgin Автор вопроса

"listing__item.premium.js-productBlock" тоже пробовал - тоже пустой список выдает.

Написано более трёх лет назад
Евгений @immaculate

AntonIgin: Да, не поняли. find_all - не понимает семантику HTML/CSS, он тупо ищет текстовое совпадение. А encoding error от того, что в консоль надо выводить закодированные в utf-8 данные: print(data.encode('utf-8') (если это не консоль Windows, там не знаю, что используется, возможно cp-1251 до сих пор).

Написано более трёх лет назад
AntonIgin @AntonIgin Автор вопроса

Евгений: ни cp1251, ни cp866, ни utf-8 не помогают.

Написано более трёх лет назад
AntonIgin @AntonIgin Автор вопроса
Евгений: пробую выводить просто в консоли, при некоторых именах контейнеров все срабатывает нормально.

вот есть имя класса listing__item js-productBlock js-similarAdvert. Его ведь надо указывать так?

table = soup.find_all('div', class_='listing__item.js-productBlock.js-similarAdvert')
Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- 37 минут назад
- 12 просмотров
0

ответов
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- 12 часов назад
- 109 просмотров
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- 13 часов назад
- 135 просмотров
3

ответа
Python

+1 ещё

Простой
Отправка post на сервер Telegram, не правильный формат?
- 2 подписчика
- 21 час назад
- 270 просмотров
0

ответов
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- вчера
- 120 просмотров
2

ответа
Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- вчера
- 44 просмотра
1

ответ
Python

Простой
Выполнение парсинга странцы?
- 2 подписчика
- вчера
- 118 просмотров
3

ответа
Python

Простой
Как исправить ошибку?
- 1 подписчик
- 16 апр.
- 103 просмотра
1

ответ
Python

Простой
Что не так с кодом Python?
- 1 подписчик
- 15 апр.
- 177 просмотров
1

ответ
Python

+1 ещё

Простой
Как локализовать label в декораторе button ui?
- 1 подписчик
- 15 апр.
- 35 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

HTML -вёрстка email рассылки

18 апр. 2024, в 14:41

27000 руб./за проект

Клиент для обращения к ByBit Private Api с помощью имеющихся куков

18 апр. 2024, в 14:22

2000 руб./за проект

Развернуть сайт на WordPress

18 апр. 2024, в 14:20

3000 руб./за проект

Answer 1 · 2017-06-18 10:49:46

Руслан @rOOse

Frontend developer

А почему lxml, а не html.parser?
Я так делал, все находило:

soup = BeautifulSoup(page, "html.parser")
songitems = soup.findAll("div", "listenSongItem")

Ответ написан более трёх лет назад

5 комментариев

Answer 2 · 2017-06-18 08:53:52

Внимательно читайте документацию: https://www.crummy.com/software/BeautifulSoup/bs4/...

Ищите либо по одному имени класса, либо перечисляйте их ровно так же, как они написаны в исходнике страницы, либо используйте регулярное выражение или функцию. .find_all недостаточно умен, чтобы знать как интерпретировать атрибут class.

Answer 3 · 2017-06-18 14:55:17

table = soup.select('div.listing__item.js-productBlock.js-similarAdvert')

или

table = soup.find_all('div', {'class': ['listing__item', 'js-productBlock', 'js-similarAdvert']})

Как распарсить сайт на Питоне?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт