@wtfowned

Как ограничить количество запросов страниц пользователем — защитить сайт от скачивания?

Доброго времени суток!

Есть сайт фотографа, англоязычный. Основной трафик с Google/ Pinterest. Нехорошие ребята скачивают весь сайт целиком, создают большой исходящий трафик превышающий реальный трафик юзеров порой в десяток раз, нагрузку на сервер (качают в 70 потоков!), и далее фото используют на других сайтах и в своих целях.

Я знаю что реальные пользователи не смотрят на сайте больше 50 страниц, но когда запросов 10000, тут все ясно.

Подскажите пожалуйста способы защиты. Возможно есть ограничение на уровне Nginx, apache, php ? Скрипт в htaccess или плагин для Wordpress для ограничения количества запросов с одного IP (или user-agent), но при этом чтобы всех ботов поисковиков пускать без проблем...Прописывать IP поисковиков в Htaccess не панацея т.к. IP ботов поисковиков может меняться, а не дать боту страницу будет epicfail.

Оптимальным был бы временный бан задаваемый на определенный период в случае превышения N запросов с привязкой к IP/Useragent.
  • Вопрос задан
  • 4906 просмотров
Решения вопроса 1
zoonman
@zoonman
⋆⋆⋆⋆⋆
У гугла четкая обратная зона прописана в DNS
https://support.google.com/webmasters/answer/80553...

Яндекса можно тоже идентифицировать
https://yandex.com/support/webmaster/robot-working...

Я бы рекомендовал использовать Crawl-delay
https://yandex.com/support/webmaster/controlling-r...

Есть еще модули для управление количеством активных соединений
nginx.org/en/docs/http/ngx_http_limit_conn_module.html

Плюс добавьте водный знак на изображения.
Есть еще издевательства вроде этих www.fleiner.com/bots/#trap

Можно сделать интересную вещь, после 30 запросов страниц с одного IP за меньше, чем минуту, просто выводить каптчу. Человек это легко решает, у него есть куки. Ставите ему куку, даете доступ еще на 30 страниц. Роботов настройте через Crawl-delay, чтобы не бомбили чаще раза в 10 секунд и все будет хорошо. Гугловский робот настраивается через интерфейс вебмастера.
Ответ написан
Пригласить эксперта
Ответы на вопрос 3
@polifill
И от поисковых систем тоже закрыть сайт?
;)
А они большой трафик создают, кучу запросов.
И как раз подряд шерстят - все 100500 страниц

Читать инструкции у поисковых систем.
Скажем у Яндекса написано как детектить их бота:

1. По User-agent (может подделываться, поэтому нужны и остальные проверки)
2. По обратному DNS из IP определять DNS-имя.
3. И по полученному имени определять IP

Яндекс пишет - это защищает от подделок.
У Гугля не знаю, читайте, ищите. Наверняка тоже можно.

Во первых, грамотный движок совершенно не нагружает сервер.
Я разрабатываю сайт, на нем порядка 7 000 фото.
Плачу за хостинг фото рублей 15 в месяц (движок хоститься отдельно) при посещаемости порядка 2000 уников в день.
Ищите проблему у себя в движке.

Во вторых, если утаскивают на нероссийские сайты, то это западные ребята - а там очень сурово карают за нарушение копирайта. Жалуйтесь их хостеру, Pinterest`у и т.п.

В третьих, у нас тоже - через Роскомнадзор можно наказать.

В четвертых, это же то о чем вы мечтали. Это - успех.
Сделайте на фотографиях свое лого - и не парьтесь.
Это бесплатная реклама.
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Тут правила для .htaccess
Ответ написан
Комментировать
opium
@opium
Просто люблю качественно работать
в нгинксе есть ip limit на количество одновременных коннектов
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
YCLIENTS Москва
от 200 000 до 350 000 ₽
Ведисофт Екатеринбург
от 25 000 ₽
ИТЦ Аусферр Магнитогорск
от 100 000 до 160 000 ₽