Обнаружить среди посетителей сайта автоматический парсер

Question

sas1024 @sas1024

Обнаружить среди посетителей сайта автоматический парсер

Собс-но, столкнулся с такой проблемой — среди посетителей сайта завёлся некий бот, который парсит все данные с форума и размещает их на стороннем ресурсе, выдавая за свои. Это достаточно неприятно :/

Ресурс этот конечно пока что вообще никак не раскручен, но как я понял, моим сайтом хотят воспользоваться для его наполнения контентом с целью дальнейшей монетизации.

Подскажите, каким образом можно выловить подобные штуки? Может, есть какой-то анализатор для Apache или nginx?
Как вообще лучше действовать в этой ситуации?

Вопрос задан более трёх лет назад
11622 просмотра

Комментировать

Подписаться 14 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 9

Комментировать

2 комментария

sas1024 @sas1024 Автор вопроса

Я понимаю про интернет :) Дело то в другом — копируется всё, включая структуру, аккаунты пользователей (их ники, по сути) и т.п. Это печалит.

Написано более трёх лет назад
Вячеслав Голованов @SLY_G

На каждую хитрую ловилку найдётся более хитрый парсер. Всё-таки браузер — программа, и можно так зашифроваться, вплоть до автоподмены прокси и т.п., что не распознаешь.
Каждый раз капчу спрашивать — пользователей отпугнёшь.
Остаётся смириться и успокоиться.

Можно попробовать связаться с этим ксероксом и предъявить. Пусть хотя бы случайных пользователей подставляет. Пусть ссылку на вас поставит где-нибудь внизу. В общем, какой-нибудь профит поиметь.

Написано более трёх лет назад

Комментировать

2 комментария

Максим Дьяченко @Mendel

Находишь бота и отдаешь ему цепи маркова вместо контента.
Заметит он не скоро, особенно если словарик брать соответствующей тематики.
Можно даже разбавлять нормальным свежим текстом, но порезанными плохо читаемыми кусочками, чтобы контент был нечитабельным. Ну поменяет он те вещи, по которым его ловят. Ну поймают еще раз, и опять ему помои начнут лить. Интерес парсинга в том, чтобы _автоматически_ копировать инфу, а если ее нужно модерировать, и периодически менять тот же прокси и т.п., то это неинтересно.

Но вообще в интернете известно только одно средство от воровства контента — твой сайт должен индексироваться раньше чем у вора.

Написано более трёх лет назад
Евгений @Caravus

Хрень какая. Во превых «Находишь бота» само по себе проблема, если конечно парсят не совсем дураки. Во вторых — по вашей методике защита от бота будет сложнее чем переделать бота.

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Linux

+4 ещё

Простой
Как исправить ошибку при установке pam_sqlite?
- 1 подписчик
- 11 часов назад
- 25 просмотров
1

ответ
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 14 часов назад
- 17 просмотров
0

ответов
Linux

+1 ещё

Простой
Хочу заняться графической оболочкой для линукс. Есть ли какая-нибудь база дистрибутива?
- 1 подписчик
- 15 часов назад
- 113 просмотров
4

ответа
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 20 часов назад
- 62 просмотра
2

ответа
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- вчера
- 12 просмотров
0

ответов
Linux

Средний
Linux на SSD рядом с Win10, на внешний HDD или виртуализация?
- 1 подписчик
- вчера
- 150 просмотров
6

ответов
Linux

+1 ещё

Простой
Что делать, если пишет «error: unknown filesystem Enering rescue mode... grub rescue>»?
- 1 подписчик
- вчера
- 114 просмотров
2

ответа
Linux

+3 ещё

Простой
Как вернуть обратно gnome 44 в Kali linux?
- 1 подписчик
- вчера
- 70 просмотров
0

ответов
Linux

+1 ещё

Средний
Astra Linux — как избавиться от шума в HDD?
- 2 подписчика
- вчера
- 338 просмотров
4

ответа
Linux

+2 ещё

Простой
Что выбрать для проекта Windows Embedded или Linux?
- 1 подписчик
- вчера
- 169 просмотров
4

ответа
Показать ещё Загружается…

Программист C для Embedded Linux

Radiofid • Санкт-Петербург

от 120 000 до 180 000 ₽

Linux Администратор DevOps

ИМАГ • Москва

от 150 000 до 170 000 ₽

Программист C/C++ embedded Linux

РТК Автоматика • Москва

от 170 000 до 250 000 ₽

Написать программу иммитирующую поведение человека для выбора услуг

20 апр. 2024, в 11:21

1000 руб./за проект

Реализация 1-страничного сайта-тренажера

20 апр. 2024, в 10:50

3500 руб./за проект

Создать дизайн приложения в Qt Designer

20 апр. 2024, в 10:45

800 руб./в час

Answer 1 · 2013-06-28 21:52:20

Попробую предложить, возможно, глуповатый, но вариант. Суть — динамически добавлять в посты некие временные метки (можно в style=«display: none»), по которым можно определить дату и время обращения, и вести полные логи (access.log). Это позволит сформулировать требования к администрации сайта (материал создан тогда-то, спёрли тогда-то, разместили тогда-то) и изучить сколь-нибудь постоянные и достоверные признаки бота. Если администрация сайта проигнорирует обращение, а хостинг далеко и не хочет выполнять команды из другой страны, то после изучения технической части можно, например, попытаться подсунуть им (и только им!) запрещённого контенту, а после его автостыривания обратиться в Роскомнадзор — мол, нарушают.

Answer 2 · 2013-06-29 07:19:26

Можно обойти любую фильтрацию, но есть некоторые признаки, которые могут отсеять явных ботов
1. переменные окружения — почему-то ленятся скопировать результат запроса типичного браузера
2. скорость клика — боты либо быстрые, либо регулярные. Делаете порог для html запросов в минуту или считаете вариативность задержек между запросами.
3. скачивание/нескачивание контента — обычный браузер качает картинки, css и прочее, но тут есть тонкости — например некоторые браузеры стали оптимизировать и не запрашивают невидимый контент. Но явно нужный css например хороший триггер для человека
4. Прокликивание ссылок — делаете ссылку со страницы, которую пользователь не может нажать и готовый триггер для бота. Для надежности делаете рандомные место, класс и параметры ссылки
5. Javascript — большинство ботов его не выполняет, но есть и пользователи без него. Делаете по загрузке страницы запрос на css, например, что будет условным триггером для человека.

В общем делаете фильтр, который проверяет кучу признаков и по сумме решает что это бот — дальше либо в сессии, если есть такие, выдаете ему всякую фигнгю, либо рубите. Если нет сессий, то создавайте правило в iptables/pf/ipfw что у вас там для данного ip на час-два-сутки.

Надо сказать пару слов о нужных ботах — спайдеров поисковых машин, можно предварительно отфильтровать ip адреса по user-agent, но есть вероятность что под них маскируются ненужные боты. Так что их надо модерировать, прежде чем заносить в белый список.

Answer 3 · 2013-06-29 21:15:01

Мурашки пробегают от советов, которые Вам дают, только пара человек сказали о возможном эффекте на поисковики. В SEO столько денег вкладывается — не закрывайте доступы и не усложняйте способ выдачи контента, это не понравится ни юзерам, ни поисковикам.
Обидно, конечно, что те придурки так копируют, но любое усложнение человек обойдёт — и картинку быстро начнёт дёргать, и скопирует поведение выполнения JS. А вот юзерам это всё — лишние запросы к серверу, замедление окончания рендеринга, случайные блокировки. А проблемы с поисковиками могут быть гораздо заметнее, чем обида на какой-то сайт.

Answer 4 · 2013-06-28 19:13:52

Если уж заморачиваться, наверно можно встроить в форум ограничение на количество просматриваемых тем одним пользователем, например…
Но по большому счёту — что в интернет попало, то всем принадлежит. Давно уже усвоил, и вам советую — ценность ресурса не в уникальности, а в том, что именно на нём что-то появляется в первую очередь. С того же Хабра вполне можно натырить статей и сделать другой сайт — а толку?

Answer 5 · 2013-06-28 19:30:44

isden @isden

А по UA/IP отлавливать если? На уровне движка сайта/.htaccess.

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2013-06-28 20:22:21

Тут вопрос в целесообразности.
Ну удастся найти бота по поведению (например, запрашивает станицы слишком часто), что с ним делать дальше? Банить? Гиблое дело. Ботовод сменит айпишник и тактику.
По возможности, расставляй ненавязчивый копирайт на картинки и прочее, но это тоже полумера, да еще и не очень нравится пользователям.

Answer 7 · 2013-06-28 21:01:06

Скрипт для обмана Вас пишется очень быстро и просто — навсклидку:
1) тот же тор или еще какие прокси серверы для эмуляций подключений откуда попало;
2) закос под поисковых ботов — Вы врядли будете по айпишнику проверять, откуда пришел данный юзер — к примеру, портал Ukr.net некогда был ISP, и например, своим dialup юзерам выдавался блок IP, по которому только имея логи, можно было отследить что это не поисковый краулер, а конечній юзер.
3) Ну а смена версии ос, названия браузера в клиенте — минутное дело.

Проще, как говорилось выше — обратиться к администрации сайта.

Answer 8 · 2013-06-28 22:55:58

demimurych @demimurych

Страшно любопытно посмотреть на сайт

Ответ написан более трёх лет назад

1 комментарий

Answer 9 · 2013-07-01 10:02:11

Ну можно попробовать заюзать ddos-guard.net. cURL не умеет эмулировать работу JS, так что это очень простой способ обломать парсер, а переписывать его уже не чём то более серьёзном — дело неблагодарное.

Обнаружить среди посетителей сайта автоматический парсер

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт