Почему меня «раскрыли», scrapy выдает крякозябры и как получить HTML самой страницы (вопрос не простой)?

Question

coderisimo @coderisimo

Почему меня «раскрыли», scrapy выдает крякозябры и как получить HTML самой страницы (вопрос не простой)?

Делаю запрос к fucking... , то есть к booking (https://www.booking.com). В ответ приходят странные крякозябры. Типа вот такого

[sV7eV>Td{TZ'7UO_/ ϟU9/PDK4kE
i6lLu̒CspPLݢٺ

полный текст (для тех, кто не боится столкнуться с невообразимым) вот здесь - https://drive.google.com/open?id=1xeGxThHw919zk3l1...
ответы все время разные, внутри встречаются странные конструкции типа
<html></html>
И так далее.
проблемы две.
1) я не могу привести это к нормальному виду. Либо букинг меня тролит и раскусил, но зачем тогда слать вот такие куски , а не просто вывалить ошибку сервера ?

2) Точно такой же запрос с postman отвечает нормальным редиректом 302, и если открыть ссылку в его заголовке, то сайт открывается без проблем.

Важно : Дело не в
jS (postman не выполняет js , но в нем все работает и сайт грузится).
не в заголовках (в postman специально их не задаю и не притворяюсь браузером)
и не в IP - postman и scrapy шлют запросы с одного IP , но с разным успехом.

Что же это такое происходит?
Спасибо

Вопрос задан более трёх лет назад
238 просмотров

2 комментария

Подписаться 2 Средний 2 комментария

500rur @500rur

У меня Скрапи забирает www.bookings.com без всяких проблем.

Написано более трёх лет назад

coderisimo @coderisimo Автор вопроса

500rur,
Написал простейшего паука :

class ExampleSpider(scrapy.Spider):
    name = 'example'
    headers = {
        'Accept': '*/*',
        'Accept-Encoding': 'gzip, deflate, br',
        'Cache-Control': 'no-cache',
        'Accept-Language': 'ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3',
        'Connection': 'keep-alive',
        'Pragma': 'no-cache',
        'USER_AGENT': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
    }

    def start_requests(self):
        url = 'http://www.booking.com'
        yield scrapy.Request(url=url, headers=self.headers, callback=self.parse)

    def parse(self, response):
        print('step 2')
        print(response.status)
        print(response.headers)
        open_in_browser(response)

в ответ получаю вот такоЭ :

если обращаюсь к yandex , например, то все работает.
Можете подсказать, в чем может быть ошибка?

ЗЫ Возможно, когда вы парсили букинг в последний раз там все работало иначе , чем сейчас ?

Написано более трёх лет назад

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Простой
Как получить список приглосительных ссылок в телеграм канале?
- 1 подписчик
- 4 часа назад
- 10 просмотров
0

ответов
Python

Простой
Пишу Todolist появилась ошибка, как исправить?
- 1 подписчик
- 7 часов назад
- 24 просмотра
0

ответов
Python

+1 ещё

Простой
Как решить проблему с терминалом PyCharm?
- 1 подписчик
- 7 часов назад
- 23 просмотра
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 8 часов назад
- 14 просмотров
0

ответов
Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 9 часов назад
- 35 просмотров
2

ответа
Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 11 часов назад
- 27 просмотров
0

ответов
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 15 часов назад
- 65 просмотров
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 16 часов назад
- 16 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 17 часов назад
- 57 просмотров
0

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- вчера
- 118 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Привязка к Маркетплейсам 1С Розница 2.3

20 апр. 2024, в 05:26

10000 руб./за проект

Дописать функцию на Flutter, работа с yandex map kit

20 апр. 2024, в 04:18

3000 руб./за проект

Английская версия для сайта на WordPress

20 апр. 2024, в 03:34

8000 руб./за проект

У меня Скрапи забирает www.bookings.com без всяких проблем.
500rur,
Написал простейшего паука :

class ExampleSpider(scrapy.Spider): name = 'example' headers = { 'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Cache-Control': 'no-cache', 'Accept-Language': 'ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3', 'Connection': 'keep-alive', 'Pragma': 'no-cache', 'USER_AGENT': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36' } def start_requests(self): url = 'http://www.booking.com' yield scrapy.Request(url=url, headers=self.headers, callback=self.parse) def parse(self, response): print('step 2') print(response.status) print(response.headers) open_in_browser(response)

в ответ получаю вот такоЭ :

если обращаюсь к yandex , например, то все работает.
Можете подсказать, в чем может быть ошибка?

ЗЫ Возможно, когда вы парсили букинг в последний раз там все работало иначе , чем сейчас ?

Answer 1 · 2019-10-22 13:07:10

Ответ подсказали на stackoverflow.
Суть : в скопированных мною БЕЗДУМНО заголовках было

'Accept-Encoding': 'gzip, deflate, br'

после чего я ,конечно, получал сжатый контент. Отсюда и непонятные крякозябры. Как только убрал этот заголовок- все заработало нормально.

Answer 2 · 2019-10-21 21:56:28

Headballz @Headballz

Записать с помощью codecs.open(file_name, 'w',"utf-8") пробовали?

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2019-10-21 23:27:57

Дело, может быть, как раз в заголовках,
которые scrapy использует по-умолчанию,
например, user-agent: scrapybot (совсем непалевно).

Почему меня «раскрыли», scrapy выдает крякозябры и как получить HTML самой страницы (вопрос не простой)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт