Парсинг Яндекс.Поиск — как отправить каптчу?

Question

Serhiy Romanov @SerhiyRomanov

Программист и WEB-разработчик

Парсинг Яндекс.Поиск — как отправить каптчу?

Нужно получить ссылки с поисковой выдачи Яндекс.
Говорю сразу - про Яндекс.XML знаю, но нужна именно "живая" выдача

Все прекрасно, пока не появляется капча.

PROXY_HEADERS = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '
                               'Ubuntu Chromium/55.0.2883.87 Chrome/55.0.2883.87 Safari/537.36',
                 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
                 'Accept-Encoding': 'gzip, deflate',
                 'Accept-Language': 'en-US,en;q=0.8,uk;q=0.6,ru;q=0.4',
                 'Cache-Control': 'no-cache',
                 'Connection': 'keep-alive',
                 'Pragma': 'no-cache',
                 'Upgrade-Insecure-Requests': '1'
                 }
s = requests.Session()
s.headers = PROXY_HEADERS

is_captcha = True
while is_captcha:
    current_url = "https://yandex.ru/search/?text={}&p={}".format(search, start)
    
    page = s.get(current_url)
    parsed = html_parser.document_fromstring(page.text)

    # Если есть капча
    if parsed.cssselect('.form__captcha'):
        is_captcha = True

        captcha_src = parsed.cssselect('.form__captcha')[0].get('src')
        solved_captcha = get_solved_captcha(captcha_src, s) # капча разгадывается верно - проверял
        key = parsed.cssselect('.form__key')[0].get('value')
        retpath = parsed.cssselect('.form__retpath')[0].get('value')

        c_url = "http://yandex.ru/checkcaptcha"
        req_c = s.get(c_url, params={'key': key, 'retpath': retpath, 'rep': solved_captcha})
       # И тут в ответ всегда получаю 200 ответ и страницу ввода капчи еще раз.
    else:
        is_captcha = False

Кто имел с этим дело? Подскажите, что я делаю не так(

Вопрос задан более трёх лет назад
4951 просмотр

Комментировать

Подписаться 5 Оценить Комментировать

Решения вопроса 1

3 комментария

Serhiy Romanov @SerhiyRomanov Автор вопроса

В итоге это и стало решением проблемы.
Как браузер использовал Firefox 47, для запуска на сервере PyVirtualDisplay.

Написано более трёх лет назад
Сергей Кузнецов @AgeSergey

Serhiy Romanov, поподробнее можно, т.к сам пытаюсь обойти её. При отправке капчи возвращает 404 или 400 ошибку.

Написано более трёх лет назад
Serhiy Romanov @SerhiyRomanov Автор вопроса

Сергей Кузнецов, смотрите код и комент
# И тут в ответ всегда получаю 200 ответ и страницу ввода капчи еще раз.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

Комментировать

2 комментария

Комментировать

3 комментария

andreyru02 @andreyru02

Привет. Сейчас занимаюсь этим делом и не получается разобраться, помоги, пожалуйста..
Ссылку на картинку капчи я получаю, решаю через сервис, дальше отправляю пост запрос на url
checkcaptcha
с параметром
rep
, но ничего не получается. В ответ приходит опять капча..

Написано более года назад
herypank @herypank

andreyru02, значит капчу не решил(или забыл какие-то данные передать), смотри в браузере как запросы отправляются. Потом попробуй получить ответ от твоего сервиса и руками его вписать в запрос, дальше снова отправляй

Написано более года назад
andreyru02 @andreyru02

herypank, Спасибо, разобрался. Проблема была в отправке пост запроса и передачи нужных параметров.

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Простой
Как получить список приглосительных ссылок в телеграм канале?
- 1 подписчик
- 3 часа назад
- 9 просмотров
0

ответов
Яндекс

+2 ещё

Средний
Как сделать чтобы в поиске яндекса были отзывы и рейтинг со звездочкой?
- 1 подписчик
- 5 часов назад
- 10 просмотров
0

ответов
Python

Простой
Пишу Todolist появилась ошибка, как исправить?
- 1 подписчик
- 6 часов назад
- 24 просмотра
0

ответов
Python

+1 ещё

Простой
Как решить проблему с терминалом PyCharm?
- 1 подписчик
- 7 часов назад
- 22 просмотра
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 8 часов назад
- 14 просмотров
0

ответов
Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 8 часов назад
- 34 просмотра
2

ответа
Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 10 часов назад
- 27 просмотров
0

ответов
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 14 часов назад
- 58 просмотров
2

ответа
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 14 часов назад
- 65 просмотров
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 16 часов назад
- 16 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Дописать функцию на Flutter, работа с yandex map kit

20 апр. 2024, в 04:18

3000 руб./за проект

Английская версия для сайта на WordPress

20 апр. 2024, в 03:34

8000 руб./за проект

Доработать клиентское приложение для GTA 5 на C#

20 апр. 2024, в 00:51

1000 руб./за проект

Answer 1 · 2017-03-24 17:51:53

Можно попробовать взять selenium webdriver. И с реального браузера отправлять запросы..Тогда капчка должна реже появлятся.

Answer 2 · 2017-03-24 05:47:33

Во первых, Хром, Хромиум, Сафари посылают уникальный id запроса в заголовочниках, как User-Agent лучше использовать Фаирлис. А в остальном могу лишь посоветовать скриптовые браузеры CasperJS, PhantomJS или SlimerJS. Они по-идее глубже эмулируют процесс человекоприсутствия

Вот например парсинг выдачи гугла
docs.casperjs.org/en/latest/quickstart.html

Answer 3 · 2017-03-23 19:45:59

Dimonchik @dimonchik2013

non progredi est regredi

капча суется боту

нужно прикинуться не ботом

Ответ написан более трёх лет назад

2 комментария

Answer 4 · 2017-03-28 10:42:05

Где-то в условиях пользования поиском от Яндекса явно написано, что парсить этот сайт запрещено.
Так что вы всё делаете "не так" и Яндекс будет активно вам противодействовать.

Answer 5 · 2021-04-08 09:44:29

Недавно столкнулся с похожей проблемой и решил записать для обычных смертных небольшую подсказку. Я потратил день чтобы разобрать.

1. В респонсе должна придти капча, если приходит обрабатывай.

response.url

2. Переходишь на этот урл и тыкаешь на кнопку я не робот через POST запрос(Мне помог Burp Suite)

resp = requests.get(capture_url)
resp.raise_for_status()
soup = BeautifulSoup(resp.text, 'lxml')
url_part = soup.select_one('form.CheckboxCaptcha-Form').get('action')
link_for_post = urljoin(current_url, url_part)
resp_post = requests.post(link_for_post) #  Тут должна быть сама капча

3. Достаешь ссылку на капчку и проходишь её через https://rucaptcha.com/software/python-rucaptcha

Что я использовал
1) https://docs.python-requests.org/en/master/ - Для запросов
2) https://docs.python-requests.org/en/master/ - Для парсинга капчи

Парсинг Яндекс.Поиск — как отправить каптчу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт