Как посчитать кол-во раз посещения страницы в Scrapy?

Question

Bjornie @Bjornie

Изучаю Python

Как посчитать кол-во раз посещения страницы в Scrapy?

Ниже привел пример рабочего кода, в котором я хочу реализовать лимит разгадываемых каптч. На данный момент, даже после удачной каптчи иногда Amazon вновь отдает страницу с каптчей. Иногда это происходит 15-20 раз. Я не сумел понять причину этого, т.к. отгадывание каптчи в большинстве своем работает нормально (deathbycaptcha) поэтому для таких АЗИН решил сделать лимит.
Но как определить, что данный url (или asin) уже были у "гадалки"? Я попробовал несколько вариантов насколько хватило моих знаний Питона и смекалки, но не пришел к нужному результату. Подскажите, что можно сделать в моем случае? Как заставить две функции parse_item и get_captcha хранить состояние?
Пример кода привожу ниже:

spoiler

class AmazonproductspiderSpider(scrapy.Spider):
# Читаю файл с ASIN, вызываю parse_item через коллбэк.
def start_requests(self):
        with open('asin.txt') as file:
            for i in file:
                if len(i) > 1:
                        yield scrapy.Request(
                            url='%s/gp/product/%s/' % (self.AMAZON_DOMAIN, asin_from_file),
                            callback=self.parse_item,
                            meta={
                                'asin_from_file': asin_from_file,
                                'country': self.country,
                            }
                        )
    def parse_item(self, response):
        captcha_form = response.xpath('//form[@action="/errors/validateCaptcha"]')
        # Если в респонсе найдена каптча, то срабатывает дальнейший блок кода и вызывается get_captcha
        if captcha_form:
            captcha_img = captcha_form.xpath('.//img/@src').extract_first()
            yield scrapy.Request(
                url=captcha_img,
                callback=self.get_captcha,
                dont_filter=True,
                meta={
                    'callback': self.parse_item,
                    'resp': response,
                    'proxy': response.meta['proxy']
                })
        else:
        # Иначе работает дальше и нужные мне поля передаются дальше в пайплайны по цепочке (Все ОК)
        pass
    # Разгадка каптчи, здесь все работает как нужно. Но хочется ввести лимит на кол-во каптч для одного АЗИН.
    def get_captcha(self, response):
        client = deathbycaptcha.SocketClient(self.DBC_USER, self.DBC_PWD)
        captcha_file = response.body
        try:
            balance = client.get_balance()
            captcha = client.decode(captcha_file, type=2)
            if captcha:
                print("[%s] CAPTCHA %s solved: %s" % ('url', captcha["captcha"], captcha["text"]))
                if '': # check if the CAPTCHA was incorrectly solved
                    client.report(captcha["captcha"])

            yield scrapy.FormRequest.from_response(
                response.meta['resp'],
                formdata={'field-keywords': captcha["text"]},
                callback=response.meta['callback'],
                dont_filter=True,
                meta={
                    'proxy': response.meta['proxy']
                })
            return
        except deathbycaptcha.AccessDeniedException:
            print("error: Access to DBC API denied, check your credentials and/or balance")

Вопрос задан более трёх лет назад
323 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Простой
Как получить список приглосительных ссылок в телеграм канале?
- 1 подписчик
- 2 часа назад
- 8 просмотров
0

ответов
Python

Простой
Пишу Todolist появилась ошибка, как исправить?
- 1 подписчик
- 5 часов назад
- 23 просмотра
0

ответов
Python

+1 ещё

Простой
Как решить проблему с терминалом PyCharm?
- 1 подписчик
- 6 часов назад
- 21 просмотр
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 7 часов назад
- 12 просмотров
0

ответов
Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 7 часов назад
- 33 просмотра
2

ответа
Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 9 часов назад
- 26 просмотров
0

ответов
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 12 часов назад
- 58 просмотров
2

ответа
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 13 часов назад
- 65 просмотров
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 15 часов назад
- 15 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 16 часов назад
- 57 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Английская версия для сайта на WordPress

20 апр. 2024, в 03:34

8000 руб./за проект

Доработать клиентское приложение для GTA 5 на C#

20 апр. 2024, в 00:51

1000 руб./за проект

Верстка и логика формы выбора билетов в зале для покупки

20 апр. 2024, в 00:43

10000 руб./за проект

Answer 1 · 2017-10-29 01:27:44

class AmazonproductspiderSpider(scrapy.Spider):
visited_urls = {}
# Читаю файл с ASIN, вызываю parse_item через коллбэк.
def start_requests(self):

........

    def parse_item(self, response):
        captcha_form = response.xpath('//form[@action="/errors/validateCaptcha"]')
        # Если в респонсе найдена каптча, то срабатывает дальнейший блок кода и вызывается get_captcha
        if captcha_form:
             visited_urls[response.url] += 1
            if visited_urls[response.url] < 2:
                captcha_img = captcha_form.xpath('.//img/@src').extract_first()
                yield scrapy.Request(

Как посчитать кол-во раз посещения страницы в Scrapy?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт