Со-основатель облачного парсинг сервиса Diggernaut
Контакты

Наибольший вклад в теги

Все теги (8)

Лучшие ответы пользователя

Все ответы (24)
  • Есть ли софт для парсинга сайтов?

    JabbaHotep
    @JabbaHotep
    Пытаюсь минимизировать ручную работу
    Есть облачный сервис Diggernaut.

    Можно работать с визуальной тулзой или писать конфигурации руками, там свой язык. Есть документация, а также блог с разными кейсами.

    Доступна кучка бесплатных парсеров на гитхабе

    Забыл добавить, парсеры можно компилить под win/mac/linux для запуска у себя а не в облаке.
    Ответ написан
    1 комментарий
  • Какой выбрать Python фреймворк для системы парсинга сайтов?

    JabbaHotep
    @JabbaHotep
    Пытаюсь минимизировать ручную работу
    Писать свой фреймворк с нуля, достаточно тяжелая задача. Сам участвовал в разработке 1 Perl фреймворка, 2-х на Python и одного на Ruby и еще одного на Go (все проприетарные) :) Однако дает возможность выстроить любую архитектуру под свои нужды. Это имеет смысл если объемы большие - сотни и тысячи парсеров и не устраивает архитектура существующих фреймворков.
    Пункты 3 и 4 никак друг другу не противоречат, данные вы храните централизованно в базе. Задачи запускаете распределенно через систему управления задачами (воркеры запускающие парсеры, могут находиться на разных хостах). Прокси должны быть обязательно, вне зависимости от степени распределенности.
    По поводу желания запускать только парсинг часть, не уверен что это возможно из коробки, но могу предложить обходной путь. Пишется 2 скрапера - один краулер, второй парсер, который парсит локальные страницы.
    Ответ написан
    Комментировать
  • Как парсить без бана?

    JabbaHotep
    @JabbaHotep
    Пытаюсь минимизировать ручную работу
    Для большинства сайтов подойдет закупка прокси, но есть и такие сайты которые уже забанили пулы известных облачных сервисов (линода там и прочие digitalocean), поэтому гарантированно рабочего решения для всех сайтов с помощью прокси нет.
    Также на проблемных сайтах помогает максимально копировать запросы из реального браузера, все хедеры, рефереры и тому подобное. Также в практике были случаи когда парсинг прерывался из-за кук, в этом случае можно чистить куки. Паузы подбирать, например, nike нещадно банит, но если сделать паузы 40-80 секунд, то можно отпарсить с одним прокси без проблем.
    В общем, каждый кейс надо разбирать отдельно и принимать решение наиболее подходящее.
    Ответ написан
    Комментировать
  • Закроют ли возможность покупки прокси?

    JabbaHotep
    @JabbaHotep
    Пытаюсь минимизировать ручную работу
    С нашим роскомнадзором возможно все, хотя и маловероятно. То что происходит сейчас, очень тревожный звонок. Фактически идет защита прав одних за счет нарушения прав других и если это сойдет им с рук, то дальше будет только хуже.
    Ответ написан
    Комментировать
  • Как достать src внутри тега iframe?

    JabbaHotep
    @JabbaHotep
    Пытаюсь минимизировать ручную работу
    Если значение атрибута пустое, то он заполняется с помощью JS. Это легко проверить, если у Вас стоит Quick Javascript Switcher для браузера. Просто отключаете JS и смотрите на интересующий Вас элемент DOM.
    Вам надо изучить механику работы страницы и найти откуда берется нужный Вам URL. Или Вы можете использовать headless browser.
    Ответ написан
    1 комментарий