@blacksan

Парсинг фотохостинга. Как Яндекс спарсил доги гугл диска?

Здравствуйте, есть фотохостинг, после загрузки фото, оно становится доступно по ссылке https://fotohost.ru/image/xxxxxxxx, где x - рандомный символ из ряда A-Za-z09
Хочу парсить фотографии с него по открытым ссылкам.
Есть ли иной способ получить валидные ссылки кроме как подбирать xxxxxxxxx проверяя код ответа?
Законно ли это действо?
Из недавних новостей узнал что яндекс поместил в выдачу документы из google docs доступные по ссылкам, выходит яндекс тоже перебирал все возможные ссылки или же существует инной способ сканирования всех возможных url домена?
  • Вопрос задан
  • 683 просмотра
Решения вопроса 1
jamakasi666
@jamakasi666 Куратор тега Java
Просто IT'шник.
Яндекс так может потому что:
1) у них кучи метрики от всех пользователей по которым они могут сразу знать ссылки
2) их роботы могут гулять по ссылкам, т.е. в документе X есть ссылка на документ Y а в документе Y ссылка на документ Z
3) У яндекса есть яндекс браузер через который они в дополнение п1 знают еще кучи ссылок.

Ваш вариант "кроме как подбирать xxxxxxxxx проверяя код ответа?" для вас и будет единственно доступным если не найдете каких либо дыр, дыр в api.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
Jeer
@Jeer
уверенный пользователь
Поисковики, по сути - это парсеры и есть.
Насчет законности, если ссылка лежит в открытом доступе, то смотреть можно. По идее, нельзя использовать в своих наработках, то есть выдавать найденные таким образом ресурсы за свои, нужно указывать "взято с такого-то сайта".
Насчет того, как можно вытащить кроме перебора, кажется, у того же яндекса есть список страниц, которые он проиндексировал для определенного сайта, возможно, эта инфа может быть доступна только владельцам счетчиков, копните в эту сторону
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы