Как спарсить данные с нескольких страниц?

Question

iiideb @iiideb

Пишу роботов на html

Как спарсить данные с нескольких страниц?

Есть сайт, на котором есть секция с классом page_listing. Нужно из этой секции выудить ссылки, которые находятся в списке с разными классами. У всех ссылок на сайте есть одинаковый атрибут rel="nofollow", так что по этому атрибуту нельзя спарсить данные с многих страниц. Парсер спокойно парсит первую страницу.

import requests
from bs4 import BeautifulSoup as bs
import csv

headers = {'accept' : '*/*', 'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'}
base_url = 'https://www.citilink.ru/catalog/computers_and_notebooks/parts/cpu/?available=1&status=55395790&p=1'

def find_content(base_url, headers):
    urls = []
    urls.append(base_url)
    session = requests.Session()
    request = session.get(base_url, headers=headers)
    if request.status_code == 200:
        request = session.get(base_url, headers=headers)
        soup = bs(request.content, 'lxml')
        try:
            pagination = soup.findAll('a', attrs={'rel' : 'nofollow'})
            count = int(pagintaion[-1].text)

        except:
            pass
        for url in urls:
            request = session.get(url, headers=headers)
            soup = bs(request.content, 'lxml')
            divs = soup.findAll('div', attrs={'class' : 'subcategory-product-item'})
            for div in divs:
                title = div.find('a', attrs={'class' : 'ddl_product_link'}).text
                href = div.find('a', attrs={'class' : 'ddl_product_link'})['href']
                about = div.find('p', attrs={'class' : 'short_description'}).text
                stand_price = div.find('span', attrs={'class' : 'subcategory-product-item__price_standart'}).text
                try:
                    special_price = div.find('span', attrs={'class' : 'subcategory-product-item__price_special'}).text
                except:
                    special_price = '-'
                    pass
                all = title + '\n' + href + '\n' + about + '\n' + 'Стандартная цена: ' + stand_price + '\n' + 'Специальная цена: ' + str(special_price) + '\n\n\n\n'
                print(all)
          #for i in pagination:
               # print(i)


find_content(base_url, headers)

Вопрос задан более трёх лет назад
3322 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как SQL запрос переделать для sqlalchemy?
- 1 подписчик
- 3 часа назад
- 42 просмотра
1

ответ
Python

+1 ещё

Простой
Как применить функцию для всего датафрейма pandas?
- 1 подписчик
- 3 часа назад
- 35 просмотров
1

ответ
Python

+3 ещё

Простой
Можно ли сменить аватарку бота telegram без botfather?
- 2 подписчика
- 5 часов назад
- 111 просмотров
1

ответ
Python

Простой
Как исправить ошибку?
- 1 подписчик
- 8 часов назад
- 75 просмотров
1

ответ
Python

Простой
Что не так с кодом Python?
- 1 подписчик
- 21 час назад
- 135 просмотров
1

ответ
Python

+1 ещё

Простой
Как локализовать label в декораторе button ui?
- 1 подписчик
- 22 часа назад
- 24 просмотра
1

ответ
Python

Простой
В функции four_squares программа выдает ошибку как только обращается, и почему не проходит тест с этим числом 106369249365575352836589875696130383747?
- 1 подписчик
- вчера
- 96 просмотров
2

ответа
Python

+1 ещё

Простой
Возможно ли соединить работающий java код и так же работающий скрипт python?
- 1 подписчик
- вчера
- 174 просмотра
3

ответа
Python

+2 ещё

Простой
Почему не работает callback в Телеграм боте?
- 1 подписчик
- вчера
- 79 просмотров
0

ответов
Python

+1 ещё

Простой
Как вывести конкретное значение из класса в python?
- 1 подписчик
- вчера
- 111 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 до 200 000 ₽

Написать бота Telegram [ТЗ в описании]

16 апр. 2024, в 18:28

1000 руб./за проект

Интеграция-сборка сайта на ModX

16 апр. 2024, в 18:09

45000 руб./за проект

Написать скрипт на Python для уникализации и склейки видео

16 апр. 2024, в 17:36

15000 руб./за проект

Answer 1 · 2019-03-05 14:42:11

Получаешь общее количество страниц с данным товаром
```
total_pages = int(soup.find('div', {'class': 'page_listing'}).findAll('a')[-1].text)
```

Делаешь список возможных урлов страниц:

base_url = 'https://www.citilink.ru/catalog/computers_and_notebooks/computers/?available=1&status=55395790&p={}'
urls = [base_url.format(x) for x in range (1, total_pages+1)]

Обходишь все полученные урлы

Как спарсить данные с нескольких страниц?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт