Обработка ошибок в парсере на python. Что не так?

Question

Ivan2121 @Ivan2121

Python

Обработка ошибок в парсере на python. Что не так?

Написал парсер на питоне. Копирует контент с чужого форума на мой форум, однако, то ли из-за таймаута на том или на моем форуме, то ли из-за проблем в соединении, парсер периодически вырубается из-за ошибок. Сейчас сделал так, чтобы парсер не вырубался, а вместо этого выводился текст в консоли и шел повтор запроса. Но это не решает проблему - эти повторы могут идти до бесконечности - а стоит закрыть и заново запустить скрипт - то все работает. Ниже прилагаю куски кода, где стоят try except. Может что-то не так сделал? Можно ли это на что-то заменить, чтобы при ошибке, происходил пропуск и дальнейшая работа скрипта? Скрипт копирует контент с нескольких форумов, поэтому важно чтобы при ошибке в соединении с одним форумом - шла работа дальше, со вторым и третьим форумом и т.д. Спасибо.

def in_go(self):#Вход на целевой форум/сайт
        
        global pars
        pars=Grab(log_file=self.name_log)
        pars.setup(connect_timeout=30, timeout=30)
        while self.err!="1":
            try:
                pars.go(self.url_login)
                pars.doc.set_input(self.user, self.login)#Вводим имя пользователя
                pars.doc.set_input(self.passwrd, self.password)#Вводим пароль
                if self.cookie_length==True:
                    pars.doc.set_input('cookielength', self.cook_length)#Выставляем время сессии
                pars.doc.submit()#Нажатие кнопки "Регистрация"
                #pars.go(self.url_profile_pars)#Дополнительная проверка входа на целевой форум
            except:
                print "НЕУДАЧНЫЙ ВХОД. ПОВТОР ЧЕРЕЗ 5 СЕК..."
                time.sleep(self.timeout)
            else:
                break
        print pars.doc.select('//title').text(), "\nУСПЕШНЫЙ ВХОД\n\n"#Выводим название сайта

def copy_info(self):
        while self.err!="1":
            try:
                pars.go(self.url_recent)#Переход к последним сообщениям
                self.board=(pars.doc.select(self.xpath_board)).text()#копируем имя раздела
                Title=(pars.doc.select(self.xpath_title)).text()#Копируем имя темы
                Title=Title.replace('Re: ','')#Удаляем в начале названия темы Re:
                Title=Title.replace(u'Ответ: ', '')#Удаляем в начале названия темы Отвте:
                self.title=Title.replace('"','')#Удаляем кавычки необходимо для корректных запросов
                self.nik=(pars.doc.select(self.xpath_nik)).text()#Копируем ник пользователя
                Post=(pars.doc.select(self.xpath_post)).html()#Копируем HTML код сообщения
            except:
                print "ОШИБКА ЧТЕНИЯ ДАННЫХ. ПОВТОР ЗАПРОСА, ЧЕРЕЗ 5 СЕК..."
                time.sleep(self.timeout)
            else:
                break

while self.err!="1":
            try:
                pars.go((pars.doc.select(self.xpath_recent)).attr('href'))#Переход на страницу в тему с последним сообщением
            except:
                print "ОШИБКА ПЕРЕХОДА НА СТРАНИЦУ С ПОСЛЕДНИМИ СООБЩЕНИЯМИ. ПОВТОР ЧЕРЕЗ 5 СЕК..."
                time.sleep(self.timeout)
            else:
                break

Вопрос задан более трёх лет назад
1880 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

3 комментария

Ivan2121 @Ivan2121 Автор вопроса

Roman, у меня ошибка возникает именно в этих кусках кода, которые я скинул. То есть, он делает запрос, например на переход к последним сообщениям (2-ой кусок кода) и такую ошибку выдает:
File "D:\Python\lib\site-packages\grab\base.py", line 368, in go
return self.request(url=url, **kwargs)
File "D:\Python\lib\site-packages\grab\base.py", line 437, in request
self.transport.request()
File "D:\Python\lib\site-packages\grab\transport\curl.py", line 447, in request
raise error.GrabTimeoutError(ex.args[0], ex.args[1])
GrabTimeoutError: [Errno 28] Operation timed out after 15000 milliseconds with 0 bytes received

Или такую DataNotFound: Could not get first item for .//*[@name="message"] query of class XpathSelector

Или вот такую DataNotFound: Could not get first item for .//*[@name="signature"] query of class XpathSelector

Но суть в чем - скрипт работает несколько циклов без ошибок, а потом случайно появляется какая-нибудь из ошибок. То есть проблема не в скрипте, а в сетевом соединении, когда пакеты не доходят, или нет доступа к форуму, то весь скрипт падает.

Написано более трёх лет назад
Ivan2121 @Ivan2121 Автор вопроса

А как избавится от global переменных? Если убираю global pars, ругается на строки с pars. в начале. Убираю pars у них, ругается уже на doc. убираю его - ругается уже на select. А если и его убрать то строки станут не рабочими...

Написано более трёх лет назад
Roman K @deliro

Ivan2121: попробуйте переписать на requests и BeautifulSoup. Потребность в globals возникает обычно от неправильного проектирования класса.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 37 минут назад
- 12 просмотров
0

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 12 часов назад
- 85 просмотров
0

ответов
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 14 часов назад
- 62 просмотра
1

ответ
Python

+1 ещё

Простой
Как сохранять сессию во Flask?
- 1 подписчик
- 20 часов назад
- 41 просмотр
0

ответов
Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- 22 часа назад
- 90 просмотров
2

ответа
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- вчера
- 136 просмотров
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- вчера
- 230 просмотров
3

ответа
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 17 апр.
- 136 просмотров
2

ответа
Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- 16 апр.
- 53 просмотра
1

ответ
Python

Простой
Выполнение парсинга странцы?
- 2 подписчика
- 16 апр.
- 133 просмотра
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Сделать аудит сайта

19 апр. 2024, в 12:53

1000 руб./за проект

Требуется доработка бота

19 апр. 2024, в 12:41

8000 руб./за проект

Доработать сайт на React + Nest

19 апр. 2024, в 12:05

1500 руб./в час

Answer 1 · 2015-05-04 11:56:39

Andrew Nodermann @Lucian

https://t.me/BusinessAndFreelance

Привет, почему вы используете while, а не механизм работы с tasks? В каком месте вываливается с ошибкой?

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2015-05-04 09:47:58

0) Старайся не использовать костыль global
1) Не пользовался Grab'ом, но по виду, requests сессии использовать проще в связке с BeautifulSoup.
2) Отлавливать except:ом не нужно. Так ты пропускаешь вообще все ошибки. Даже синтаксические.
3) Используй потоки. Не так давно переписал свою библиотеку для работы со Steam API и увеличил скорость загрузки через потоки 500 матчей с 20 минут до 40 секунд (конечно, зависит от скорости соединения, но всё же).
4) Или syncio. habrahabr.ru/company/wargaming/blog/256425

А по факту: сложно понять, где ошибка без полного кода и трейсбэка.

Обработка ошибок в парсере на python. Что не так?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт