Профиль пользователя заблокирован сроком с 14 февраля 2016 г. и навсегда по причине: Снова вопросы не по теме
Ответы пользователя по тегу Proxy
  • Как сделать web scraper'a правильно?

    sivabur
    @sivabur
    Заблокировали просто так!
    Надо больше конкретики. Доступ к апи по логину паролю или нет? Какии ограничения по апи?(макс. количество запросов с одного апи пользователя)по ип обходиться сокс проксями, по акаунту разными аккаунтами.
    Если интересует максимальный закос под пользователя то это что ваш web scraper выполнял js +делал запроси через рандомное количество времени+эмуляция перемещения миши. Но нужен ли вам максимальный закос под человека. Так как вы однозначно жертвуйте скоростью. А создать 1000 ящиков электронный почты щас ничего не стоит.(если там привязка аккаунта к почте). Так же если там ajax есть смысл не грузить страницу полностью f а посылать только ajax запроси. Так же можно вобще не дожидаться загрузки кода страница до конца. Не загружать скрипты и картинки.

    Ну обычно все упирается в ограничения их надо изучать и грамотно их не превышать, при этом искать обходные пути.
    Ответ написан
    3 комментария
  • Как проверить, является ли IP - прокси?

    sivabur
    @sivabur
    Заблокировали просто так!
    Заголовки проверить (большинство хттп и хттпс отпадут), попробовать зайти на какой то сайт используя тот адрес+популярные порты.Сверять с интернетом[списком публичых прокси] (в ручную сложно наверное будет ну есть API платные и бесплатные). Еще некоторые прокси плохо обрабатывают определенный хтмл код по етим признакам тоже можно вычислить.
    Ответ написан
    Комментировать
  • Как проверять прокси?

    sivabur
    @sivabur
    Заблокировали просто так!
    Чаще всего проблем с проксями нету.
    Но если хочешь проверить автоматически:
    Делаешь запрос CURL через прокси(в цыкле подсовывая каждый раз новый прокси) на сайт которые тебе надо проверить
    1. Вариант посылаешь HTTP GET запрос смотришь ответ
    2. Вариант посылать HTTP HEAD запрос.Не будет приходить тело сэкономишь немного времени.
    3. Вариант читать с потока тока первую строку если == HTTP/1.1 200 то прокси не заблокировано. Т. е . вариант еще быстрей.

    Ну тайм аут для прокси еще поставить и тайм аут на ожидания ответа и тайм аут на время чтения данных.Вот вроде все для скоростного перебора.Ну еще многопоточность туда можешь прицепить CURL с ней вроде работает.

    Ну а вообще это лучше не на php писать.
    Ответ написан
    Комментировать