Задание по парсингу страниц, как оформить в цикле/рекурсии с try/except?

Question

Dane4kaa @Dane4kaa

Задание по парсингу страниц, как оформить в цикле/рекурсии с try/except?

Помогите, пожалуйста, новичку разобраться
Дали задание:
Дана страница (в нашем случае википедия), нужно ее распарсить и извлечь все ссылки, затем перейти по собранным ссылкам и извлечь все ссылки уже из них. Посоветовали использовать рекурсию, глубина рекурсии 3. В итоге нужно из всех собранных ссылок выбрать '.png' и записать в файл.
Я смогла только с 1 страницы все собрать и отсортировать, ни с рекурсией, ни с циклом не выходит. Постоянно получаю либо ConnectionError, либо MemoryError. Понимаю, что нужно вводить try/except, но уже полностью запуталась.
Заранее благодарю!

from bs4 import BeautifulSoup, SoupStrainer
import requests

class Links:
    def get_urls(self, level: int) -> []:
        urls = []
        try:
            links_1 = []
            start_link = "https://ru.wikipedia.org/"
            links_1.append(start_link)
            for i in links_1:
                response = requests.get(i)
                soup = BeautifulSoup(response.content, "html.parser", parse_only=SoupStrainer(['a', 'img']))
                full_list = [link['href'] for link in soup if link.get('href')] + [img['src'] for img in soup if img.get('src')]
                full_list = list(set(full_list))
                for url in full_list:
                    if not url.startswith('https:/'):
                        if url.startswith('/'):
                            if url.find('.org') == -1:
                                url = start_link + url[1:]
                                full_list.append(url)
                            elif url.find('.org'):
                                url = 'https:' + url
                                full_list.append(url)
                        elif url.startswith('//'):
                            url = start_link + url[2:]
                            full_list.append(url)
                        else:
                            pass
                    elif url.startswith('https:/'):
                        full_list.append(url)
                        urls.append(full_list)
                self.get_urls(level - 1)
                links_1 = full_list
                links_1 = list(set(links_1))
                return links_1
        except MemoryError as e:
            print(e)

        return urls


links = Links()
list_links = links.get_urls(level=3)
#with open('text.txt', 'w') as f:
#    for x in list_links:
#        if x.endswith('.png'):
#            f.write('%s\n' % x)

Вопрос задан более трёх лет назад
471 просмотр

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+3 ещё

Простой
Каким должен быть скрипт php, чтобы изменял автоматически дату и время в yml-фиде?
- 1 подписчик
- 4 часа назад
- 14 просмотров
0

ответов
Python

Простой
Не работают post — запросы Python?
- 1 подписчик
- 5 часов назад
- 25 просмотров
0

ответов
Python

+1 ещё

Простой
Как загрузить файл на общую папку Яндекс Диск?
- 1 подписчик
- 6 часов назад
- 21 просмотр
0

ответов
Python

+2 ещё

Средний
Почему MySQL каждый раз вылетает с ошибкой?
- 1 подписчик
- 9 часов назад
- 77 просмотров
1

ответ
Python

+3 ещё

Простой
Как убрать распознавание, некоторых объектов в YOLOv8?
- 1 подписчик
- 10 часов назад
- 26 просмотров
1

ответ
Python

Простой
Какой модуль выбрать для проекта Python?
- 1 подписчик
- 11 часов назад
- 68 просмотров
0

ответов
Python

+1 ещё

Простой
Как перебрать все теги path в svg картинке?
- 1 подписчик
- 14 часов назад
- 35 просмотров
0

ответов
Python

+1 ещё

Простой
В Visual Studio Code иногда вылезает ошибка при запуске python файла — can't open file errno 2 no such file or directory?
- 1 подписчик
- 15 часов назад
- 26 просмотров
0

ответов
Python

Простой
Unknown sid vk auth.sign up что делать?
- 1 подписчик
- 19 часов назад
- 23 просмотра
0

ответов
Python

Простой
Почему datetime выдает не верное текущее время?
- 1 подписчик
- вчера
- 72 просмотра
1

ответ
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Доработать обмен заказами 1с

11 мая 2024, в 00:19

1000 руб./за проект

Разработка сайта (верстка)

10 мая 2024, в 23:51

30000 руб./за проект

Опубликовать приложение в Google play

10 мая 2024, в 23:33

2500 руб./за проект

Находит все ссылки и все ссылки на картинки на главной странице вики, затем проходит по всем найденым ссылкам и в каждой из них находит все ссылки картинки. Все найденные ссылки на картинки записываются в файл.
https://pastebin.com/ev9s7b3j

Answer 1 · 2018-12-19 18:56:35

Нигде в коде нет проверки что level стал равен 0. Рекурсия получается бесконечной (у вас в MemoryError упирается)
self.get_urls(level - 1) не возвращает список найденных urlов

Answer 2 · 2018-12-20 00:37:29

Посоветовали использовать рекурсию, глубина рекурсии 3

По-человечьи это означает, что с изначальной страницы нужно перейти максимум на три уровня.

Нужно сделать:
1. Избавиться от дублей. В обычный set() запихивать урлы, где уже собрала ссылки, чтобы не тратить лишнее время
2. Класс Links переделать. Он должен принимать один урл — где искать ссылки и текущий уровень. Текущий уровень нужен для того, чтобы остановить процесс на уровне 2 (если начинать с нулевого).
3. Экземпляр Links(url="something", level=0) будет порождать другие Links(url="something-else", level=1) и уметь возвращать назад список ссылок. Соответсвенно, если self.level == 2, то найденые ссылки мы не парсим, а просто отдаём наверх

Задание по парсингу страниц, как оформить в цикле/рекурсии с try/except?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт